
本文深入探讨了在Pandas DataFrame中高效计算行级标准差的方法,尤其关注如何排除每行的最小和最大值。文章提供了两种核心策略:一种是利用NumPy的排序功能快速剔除首尾极值,适用于排除单一最小值和最大值;另一种是构建布尔掩码以处理重复的最小或最大值,确保所有极值都被排除。两种方法均采用向量化操作,以应对大规模数据集的性能挑战。
在数据分析和统计处理中,我们经常需要计算数据集的统计量。当处理多维数据时,计算行或列的统计量是常见的需求。本文将聚焦于一个特定场景:如何在Pandas DataFrame中计算每行的标准差,同时排除该行的最小值和最大值。这对于去除异常值或极端数据点对标准差计算的影响非常有用。我们将介绍两种高效的向量化方法,适用于处理数百万行的大型数据集。
首先,我们创建一个示例Pandas DataFrame,以便演示后续的操作。
import pandas as pd
import numpy as np
df = pd.DataFrame(
{"a": [-100, 7], "b": [2, 5], "c": [3, -50], "d": [60, 9], "e": [4, 130]}
)
print("原始DataFrame:")
print(df)输出的原始DataFrame如下:
原始DataFrame:
a b c d e
0 -100 2 3 60 4
1 7 5 -50 9 130这种方法适用于每行中只有一个唯一的最小值和一个唯一的最大值需要被排除的情况。其核心思想是利用NumPy对行进行排序,然后通过切片操作移除排序后的第一个(最小值)和最后一个(最大值)元素,最后计算剩余元素的标准差。这种方法高效且易于实现。
实现步骤:
NoCode
美团推出的零代码应用生成平台
180
查看详情
# 方法一:通过排序排除首个最小/最大值
df_method1 = df.copy()
df_method1['sd_sorted_exclude'] = np.sort(df_method1.values, axis=1)[:, 1:-1].std(axis=1, ddof=1)
print("\n方法一结果(排除首个最小/最大值):")
print(df_method1)结果分析: 对于第一行 [-100, 2, 3, 60, 4],排序后为 [-100, 2, 3, 4, 60]。排除首尾后剩下 [2, 3, 4],其标准差为 np.std([2, 3, 4], ddof=1) = 1.0。 对于第二行 [7, 5, -50, 9, 130],排序后为 [-50, 5, 7, 9, 130]。排除首尾后剩下 [5, 7, 9],其标准差为 np.std([5, 7, 9], ddof=1) = 2.0。 结果与预期一致。
当一行中可能存在多个相同的最小值或最大值,并且需要将它们全部排除时,仅仅通过排序然后切片可能不足够。例如,如果一行是 [1, 1, 5, 10, 10],最小值是 1,最大值是 10。如果只想排除一个 1 和一个 10,方法一适用;但如果需要排除所有的 1 和所有的 10,则需要更精细的控制。
这种方法通过创建布尔掩码来标记出不是最小值也不是最大值的元素。
实现步骤:
# 方法二:通过布尔掩码排除所有重复的最小/最大值
df_method2 = df.copy()
# 计算每行的最小值和最大值
min_vals = df_method2.min(axis=1)
max_vals = df_method2.max(axis=1)
# 创建布尔掩码
# df.ne() 检查元素是否不等于指定值
m1 = df_method2.ne(min_vals, axis=0) # 标记出不等于最小值的元素
m2 = df_method2.ne(max_vals, axis=0) # 标记出不等于最大值的元素
# 组合掩码并应用,然后计算标准差
df_method2['sd_mask_exclude'] = df_method2.where(m1 & m2).std(axis=1, ddof=1)
print("\n方法二结果(排除所有重复的最小/最大值):")
print(df_method2)结果分析: 由于我们的示例数据中每行的最小值和最大值都是唯一的,因此方法二的结果与方法一相同。 对于第一行 [-100, 2, 3, 60, 4],最小值是 -100,最大值是 60。m1 会将 -100 标记为 False,m2 会将 60 标记为 False。最终 m1 & m2 会使得 -100 和 60 对应的位置为 False,在 where 操作后变为 NaN。剩余 [2, 3, 4] 的标准差为 1.0。 同样,第二行 [7, 5, -50, 9, 130] 的处理逻辑也类似,最终得到 [5, 7, 9] 的标准差 2.0。
本文详细介绍了两种在Pandas DataFrame中高效计算行级标准差并排除极值的方法。第一种方法利用NumPy的排序和切片功能,适用于排除单一的最小和最大值;第二种方法则通过构建布尔掩码,能够灵活处理并排除行中所有重复出现的最小和最大值。这两种方法都强调了向量化操作的重要性,确保了在大规模数据集上的计算效率。在实际应用中,根据数据特性和具体需求选择最合适的方法,将有助于更准确地进行数据分析。
以上就是Pandas/NumPy:高效计算行级标准差,智能排除极值的详细内容,更多请关注其它相关文章!
# 标准差
# 最小值
# 掩码
# 布尔
# 两种
# 适用于
# python
# 浮点
# 湛江网站优化公司有哪些
# 邹城产品营销推广中心
# 营销推广策略用英文翻译
# seo sem dsp
# 品牌网站推广优惠方案模板
# 淘宝网店营销与推广图片
# 德阳营销型企业网站优化
# 怎么游戏网站推广
# 奶茶门店营销推广
# 第一个
# 首个
# 不等于
# 2020做网站推广
相关栏目:
【
Google疑问12 】
【
Facebook疑问10 】
【
优化推广96088 】
【
技术知识133117 】
【
IDC资讯59369 】
【
网络运营7196 】
【
IT资讯61894 】
相关推荐:
京东快递包裹信息查询入口 京东快递官方查询平台入口
拷贝漫画2025网页版入口 拷贝漫画官网免费看全集
163邮箱网页版官方登录入口 163邮箱网页版访问页面
电脑开不了机怎么办 电脑无法开机的解决方法
优化 WooCommerce 产品价格显示与自定义短代码集成
小米手机截图后如何查看历史_小米手机截图历史记录查看方法
视频转蓝光m2ts格式
在J*a中如何实现类的继承与方法重用_OOP继承方法重用技巧分享
百度识图图像分析 百度识图识别平台
《美篇》取消会员自动续费方法
c++20的指定初始化(Designated Initializers)怎么用_c++ C风格结构体初始化
优化Flask模板中SQLAlchemy查询迭代标签:处理字符串空格问题
如何使用CSS Grid实现“大方块左侧,小方块右侧垂直堆叠”的水平布局
苹果SE如何开启单手模式_苹果SE单手操作功能
喜茶GO更换登录账号方法
Dagster资产间数据传递与用户配置管理教程
POKI小游戏在线免费入口链接 POKI小游戏无下载秒玩玩
抖音手机分身两个账号怎么切换?分身两个系统是一样的吗?
《我的恋爱逃生攻略》中文名字输入方法
Golang中的rune与byte类型区别是什么_Golang字符与字节处理详解
如何在Python中安全地将环境变量转换为整数并满足Mypy类型检查
b站网页版入口 哔哩哔哩官方网站直接进入
Word 2003字体大小设置方法
J*aScript大数运算_BigInt使用指南
PHP动态导航按钮:根据用户登录状态切换链接与文本
CDR如何复制交互式填充色
菜鸟驿站的取件码忘了怎么办 手机快速查询指南
行者app怎样导出日志
Go语言反射机制:如何访问被嵌入结构体遮蔽的方法
c++如何使用std::thread::join和detach_c++线程生命周期管理
Excel如何快速找到并断开外部数据源链接_Excel外部数据源断开方法
TikTok视频播放中断怎么办 TikTok播放异常修复方法
掌握CSS :has() 选择器:父选择器、嵌套限制与常见陷阱解析
Go Template中优雅处理循环最后一项:自定义函数实践
byrutor直接访问入口 byrutor官方游戏库
《绿竹漫游》关闭消息通知方法
Win11怎么录屏_Windows 11自带Xbox Game Bar录制视频
sf漫画官网登录入口直达_sf漫画官方正版网址
Pandas中基于动态偏移量实现DataFrame列值位移的策略
《荔枝fm》导出文件教程
《火花chat》搜索好友方法
J*aScript:从子元素中批量移除特定CSS类
谷歌浏览器怎么把网页翻译成中文_Chrome网页翻译功能使用方法
《广发易淘金》国债逆回购操作教程
excel怎么计算平均值 excel平均函数*ERAGE使用教学
《海底捞》点外卖方法
Python模块化编程:避免循环导入与共享函数的最佳实践
iPhone14开启Apple TV遥控设置
高效调试PHP大型嵌套数组:JSON序列化与可视化工具实践
汽水音乐网页端访问 汽水音乐官方网页直达
2025-11-25
运城市盐湖区信雨科技有限公司是一家深耕海外推广领域十年的专业服务商,作为谷歌推广与Facebook广告全球合作伙伴,聚焦外贸企业出海痛点,以数字化营销为核心,提供一站式海外营销解决方案。公司凭借十年行业沉淀与平台官方资源加持,打破传统外贸获客壁垒,助力企业高效开拓全球市场,成为中小企业出海的可靠合作伙伴。