使用Pandas cummax 函数高效跟踪数据流中的累计最大值


使用pandas cummax 函数高效跟踪数据流中的累计最大值

本文详细介绍了如何在Pandas DataFrame中高效地创建一个新列,该列能够跟踪并保留数据流中遇到的累计最大值。通过利用Pandas内置的`cummax()`函数,可以简洁而优雅地解决当序列值增加时更新最大值,并在值下降时保持前一个最大值的需求,避免了复杂的迭代或分组逻辑。

需求概述:跟踪并保留累计最大值

在数据分析场景中,我们经常需要处理序列数据,并希望在一个新列中记录某个特定指标的“历史最高点”。具体来说,需求是这样的:对于DataFrame中的一列(例如a),我们希望创建一个新列c。c列的每个值应是到当前行为止,a列中出现过的最大值。这意味着,如果当前行的a值大于c列的当前值(即之前的累计最大值),那么c列就更新为这个新的最大值;如果当前行的a值小于或等于c列的当前值,c列则保持不变,继续保留之前的累计最大值。

让我们通过一个具体的DataFrame示例来阐明这一需求:

import pandas as pd

df = pd.DataFrame(
    {
        'a': [110, 115, 112, 180, 150, 175, 160, 145, 200, 205, 208, 203, 206, 207, 208, 209, 210, 215],
        'b': [1, 1, 0, 1, 0, 1, 0, 0, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1], # 'b'列在此问题中作为辅助理解,但并非解决核心问题的必要条件
    }
)

print("原始DataFrame:")
print(df)

期望得到的输出df['c']列如下:

      a  b    c
0   110  1  110
1   115  1  115
2   112  0  115 # a[2]=112 < c[1]=115, c保持115
3   180  1  180
4   150  0  180 # a[4]=150 < c[3]=180, c保持180
5   175  1  180 # a[5]=175 < c[4]=180, c保持180
6   160  0  180
7   145  0  180
8   200  1  200
9   205  1  205
10  208  1  208
11  203  0  208 # a[11]=203 < c[10]=208, c保持208
...

传统思路与潜在复杂性

初次面对这类问题时,开发者可能会倾向于考虑使用循环、条件判断,或者利用groupby结合一些自定义函数来识别“连续上涨”的“streak”并提取其中的最大值。例如,尝试通过df['b'].ne(df['b'].shift()).cumsum()来标识连续块,然后对这些块进行max操作。这种方法虽然在某些分组场景下有效,但对于单纯的“累计最大值”问题而言,会引入不必要的复杂性,并且可能效率较低。

简洁高效的解决方案:pandas.Series.cummax()

Pandas库为这类累计计算提供了非常强大的内置函数。针对“累计最大值”的需求,最直接且最高效的工具是pandas.Series.cummax()方法。

cummax()函数的作用是计算Series的累计最大值。它遍历Series中的每个元素,并返回一个新Series,其中每个位置的值是到当前位置为止,原始Series中出现过的最大值。这完美契合了我们的需求。

实现代码:

会译·对照式翻译 会译·对照式翻译

会译是一款AI智能翻译浏览器插件,支持多语种对照式翻译

会译·对照式翻译 79 查看详情 会译·对照式翻译
# 使用cummax()函数创建列'c'
df['c'] = df['a'].cummax()

print("\n处理后的DataFrame:")
print(df)

输出结果:

原始DataFrame:
      a  b
0   110  1
1   115  1
2   112  0
3   180  1
4   150  0
5   175  1
6   160  0
7   145  0
8   200  1
9   205  1
10  208  1
11  203  0
12  206  1
13  207  1
14  208  1
15  209  1
16  210  1
17  215  1

处理后的DataFrame:
      a  b    c
0   110  1  110
1   115  1  115
2   112  0  115
3   180  1  180
4   150  0  180
5   175  1  180
6   160  0  180
7   145  0  180
8   200  1  200
9   205  1  205
10  208  1  208
11  203  0  208
12  206  1  208
13  207  1  208
14  208  1  208
15  209  1  209
16  210  1  210
17  215  1  215

从输出可以看出,df['c']列完全符合预期的行为,简洁而高效地实现了累计最大值的跟踪。

扩展:如何生成辅助列 b

原始问题中提到了一个辅助列b,其定义是当df.a > df.a.shift(1)时为1,否则为0。虽然在解决累计最大值问题时b列并非必需,但了解如何程序化地生成它也是一个很好的实践。

可以使用gt()(大于)方法结合shift()来比较当前行与上一行a的值,然后将布尔结果转换为整数:

# 生成列'b'的正确方法
df['b_generated'] = (df['a'] > df['a'].shift(1)).astype(int)

print("\n带有生成b列的DataFrame:")
print(df[['a', 'b', 'b_generated', 'c']])

输出示例:

带有生成b列的DataFrame:
      a  b  b_generated    c
0   110  1            0  110 # shift(1)对于第一行是NaN,比较结果为False
1   115  1            1  115
2   112  0            0  115
3   180  1            1  180
4   150  0            0  180
5   175  1            1  180
6   160  0            0  180
7   145  0            0  180
8   200  1            1  200
9   205  1            1  205
10  208  1            1  208
11  203  0            0  208
12  206  1            1  208
13  207  1            1  208
14  208  1            1  208
15  209  1            1  209
16  210  1            1  210
17  215  1            1  215

注意: 原始数据中的b列与根据规则生成的b_generated列在第一行有所不同。这是因为df.a.shift(1)在第一行会产生NaN,任何与NaN的比较(包括>)都会返回False。如果希望第一行b为1,可能需要对第一行进行特殊处理或调整逻辑。然而,对于本教程的核心问题——计算c列,b列的存在与否或其具体生成方式并不影响cummax()的正确应用。

总结

当需要在一个Pandas Series中跟踪并保留到当前点为止的累计最大值时,pandas.Series.cummax()函数是最佳选择。它提供了一个高度优化且易于理解的解决方案,避免了手动迭代或复杂的自定义函数,极大地提高了代码的简洁性和执行效率。掌握这类Pandas内置的累计函数(如cummin(), cumsum(), cumprod()等)对于高效处理时间序列或顺序数据至关重要。

以上就是使用Pandas cummax 函数高效跟踪数据流中的累计最大值的详细内容,更多请关注其它相关文章!


# 递归  # 多维  # 这类  # 布尔  # 自定义  # 创建一个  # 工具  # 保定综合运输网站建设  # 网站推广不续费会关闭吗  # 专业公司推广网站建设  # 靖江网站建设什么价格  # 房山区公司网站建设推广  # 盘锦公司推广员招聘网站  # 寮步电子网站推广计划  # seo准  # 谷歌seo在哪里赚钱  # 中影电影网站建设  # 这一  # 迭代  # 是一个  # 掩码 


相关栏目: 【 Google疑问12 】 【 Facebook疑问10 】 【 优化推广96088 】 【 技术知识133117 】 【 IDC资讯59369 】 【 网络运营7196 】 【 IT资讯61894


相关推荐: 铁路12306官网登录入口 铁路12306在线购票官方平台  DeepSeek超全面指南:入门必看  背部总是隐隐作痛怎么回事 背痛如何改善  Composer reinstall命令重装损坏的包  iPhone 13 mini如何清理Safari缓存_iPhone 13 mini浏览器缓存清理方法  VS Code的时间线(Timeline)视图:您的代码时光机  Google Drive API 认证:服务账户与OAuth 2.0的选择与实践  Go Goroutine调度与并发执行深度解析  漫蛙app官方版手机正版入口-漫蛙漫画manwa在线漫画正版入口  word页码灰色不能用如何解决  mysql镜像配置如何设置用户权限组_mysql镜像配置用户组与权限分级管理方法  Python类装饰器动态修改方法时的类型提示:Mypy插件实现精确静态分析  《桃源记2》资源采集攻略  小红书网页版怎么进 小红书网页版通用入口  电脑视频号|直播|如何分享屏幕  C++二维数组动态分配方法_C++指针与数组内存布局  mysql如何回滚事务_mysql ROLLBACK事务回滚方法  《真我》申请退款方法  济南公交卡手机充值指南  51漫画网实时入口 51漫画网页版官方免费漫画入口  《王者荣耀世界》英雄获取攻略  Sublime Text怎么关闭自动完成_Sublime禁用Auto Complete设置  QQ邮箱官方登录页_腾讯出品安全稳定的邮箱服务  Go语言中方法接收器的选择:值类型还是指针类型?  智慧团建活动报名入口 智慧团建活动报名入口手机端官网​  创建快捷方式启动系统保护  《全民k歌》网页版最新登录入口一览  如何解决Casbin日志与应用日志不统一的问题,使用casbin/psr3-bridge实现无缝集成  yy漫画登录页面官方入口_yy漫画在线阅读网址入口  J*aScript模拟悬停与点击:自动化网页动态元素交互指南  教育查询官方网站入口 教育个人档案查询免费官网  C#解析并修改XML后保存 如何确保格式与编码的正确性  TikTok视频播放中断怎么办 TikTok播放异常修复方法  Dash应用中自定义HTML页面标题与网站图标(F*icon)的实用指南  《火花chat》搜索好友方法  QQ网页版官方账号登录入口 QQ网页版网页版入口快速导航  行者app怎样导出日志  智学网成绩单查询系统网_智学网学生平台登录  React应用中Commerce.js数据加载与状态管理最佳实践  《盗墓笔记手游》技能介绍  魔法祈幻界兑换码礼包大全  掌握Go App Engine项目结构与GOPATH:包管理与导入实践  WooCommerce 新客户订单自动添加管理员备注教程  lol小红书怎么|直播|?lol小红书|直播|是什么意思?  如何用Golang优化微服务间请求性能_Golang 微服务请求性能优化方法  苹果电脑如何快速截图并编辑 苹果电脑截屏标注快捷操作  快手网页版官方访问 快手网页版页面在线打开  苹果官网国补入口在哪  深入理解Python对象引用与链表属性赋值  知音漫客官网首页入口_知音漫客热门漫画推荐 

 2025-11-20

了解您产品搜索量及市场趋势,制定营销计划

同行竞争及网站分析保障您的广告效果

点击免费数据支持

提交您的需求,1小时内享受我们的专业解答。

运城市盐湖区信雨科技有限公司


运城市盐湖区信雨科技有限公司

运城市盐湖区信雨科技有限公司是一家深耕海外推广领域十年的专业服务商,作为谷歌推广与Facebook广告全球合作伙伴,聚焦外贸企业出海痛点,以数字化营销为核心,提供一站式海外营销解决方案。公司凭借十年行业沉淀与平台官方资源加持,打破传统外贸获客壁垒,助力企业高效开拓全球市场,成为中小企业出海的可靠合作伙伴。

 8156699

 13765294890

 8156699@qq.com

Notice

We and selected third parties use cookies or similar technologies for technical purposes and, with your consent, for other purposes as specified in the cookie policy.
You can consent to the use of such technologies by closing this notice, by interacting with any link or button outside of this notice or by continuing to browse otherwise.