
本教程探讨了在pandas dataframe中根据特定“键”列的值,有条件地映射或填充多个目标列的专业方法。针对传统`numpy.select`重复操作的低效性,文章详细介绍了两种高性能的向量化解决方案:一是利用`pd.get_dummies`和`df.mask`构建布尔掩码进行条件替换;二是采用`melt`、`merge`和`unstack`进行数据重塑与过滤。这些方法能显著提升处理效率,尤其适用于大数据集。
在数据处理中,我们经常遇到这样的场景:需要根据DataFrame中某一“键”列的值,有条件地处理其他多个列的数据。例如,如果key列的值是'key1',则colA和colD应保留其原始值,而colB和colC则应填充为'NA'。如果key列的值是'key2',则colB保留原值,其他列填充'NA',以此类推。
传统的做法可能涉及对每个目标列单独使用numpy.select或循环遍历,但这在处理大量列或大规模数据集时效率低下且代码冗余。例如,以下代码展示了这种重复性操作:
import pandas as pd
import numpy as np
# 创建示例DataFrame
data = {
'key': ['key1', 'key2', 'key3', 'key1', 'key2'],
'colA': ['value1A', 'value2A', 'value3A', 'value4A', 'value5A'],
'colB': ['value1B', 'value2B', 'value3B', 'value4B', 'value5B'],
'colC': ['value1C', 'value2C', 'value3C', 'value4C', 'value5C'],
'colD': ['value1D', 'value2D', 'value3D', 'value4D', 'value5D']
}
df = pd.DataFrame(data)
# 应用条件和选择到各自的列
df['colA'] = np.select([df['key'] == 'key1'], [df['colA']], default='NA')
df['colD'] = np.select([df['key'] == 'key1'], [df['colD']], default='NA')
df['colB'] = np.select([df['key'] == 'key2'], [df['colB']], default='NA')
df['colC'] = np.select([df['key'] == 'key3'], [df['colC']], default='NA')
print(df)输出结果:
key colA colB colC colD 0 key1 value1A NA NA value1D 1 key2 NA value2B NA NA 2 key3 NA NA value3C NA 3 key1 value4A NA NA value4D 4 key2 NA value5B NA NA
这种方法对于少量列尚可接受,但当需要映射的列增多时,代码的维护性和可读性会迅速下降。因此,寻求更高效、更具向量化的解决方案是至关重要的。
这种方法的核心思想是构建一个与原始DataFrame形状相同的布尔掩码,该掩码指示每个单元格是否应该保留其原始值(True)或被替换为默认值(False)。然后,利用DataFrame.mask()方法根据这个掩码进行批量替换。
实现步骤:
代码示例:
import pandas as pd
import numpy as np
# 创建示例DataFrame
data = {
'key': ['key1', 'key2', 'key3', 'key1', 'key2'],
'colA': ['value1A', 'value2A', 'value3A', 'value4A', 'value5A'],
'colB': ['value1B', 'value2B', 'value3B', 'value4B', 'value5B'],
'colC': ['value1C', 'value2C', 'value3C', 'value4C', 'value5C'],
'colD': ['value1D', 'value2D', 'value3D', 'value4D', 'value5D']
}
df = pd.DataFrame(data)
# 1. 定义键与目标列的映射关系
d = {'key1': ['colA', 'colD'],
'key2': ['colB'],
'key3': ['colC'],
}
# 2. 生成列有效性布尔表
# 将字典转换为Series并展平
s = pd.Series(d).explode()
# 使用get_dummies创建独热编码,表示每个key对应的有效列
# groupby(level=0).max()确保每个key只有一行,且True表示该列对该key有效
mask_df = pd.get_dummies(s, dtype=bool).groupby(level=0).max()
# 3. 获取所有需要处理的目标列
cols_to_map = df.columns.difference(['key'])
# 4. 对齐掩码到DataFrame行,并应用到目标列
# mask_df.reindex(df['key']) 根据df['key']的顺序重新索引mask_df
# .to_numpy() 将结果转换为NumPy数组,以便与df[cols_to_map]进行元素级操作
row_level_mask = mask_df.reindex(df['key']).to_numpy()
# 使用mask方法,当row_level_mask为False时,将对应位置的值替换为'NA'
df[cols_to_map] = df[cols_to_map].mask(~row_level_mask, 'NA') # 注意这里使用 ~ 进行布尔反转
print(df)输出结果:
key colA colB colC colD 0 key1 value1A NA NA value1D 1 key2 NA value2B NA NA 2 key3 NA NA value3C NA 3 key1 value4A NA NA value4D 4 key2 NA value5B NA NA
中间结果解释:
mask_df (列有效性布尔表):
colA colB colC colD key1 True False False True key2 False True False False key3 False False True False
这表示key1关联colA和colD,key2关联colB,key3关联colC。
row_level_mask (mask_df.reindex(df['key']).to_numpy()):
Viggle AI Video
Powerful AI-powered animation tool and image-to-video AI generator.
115
查看详情
[[ True False False True] # for df['key'] == 'key1' [False True False False] # for df['key'] == 'key2' [False False True False] # for df['key'] == 'key3' [ True False False True] # for df['key'] == 'key1' [False True False False]] # for df['key'] == 'key2'
这个NumPy数组是最终用于mask操作的布尔掩码,它与df[cols_to_map]的形状完全匹配,True表示对应位置的值应保留,False表示应被替换。
第二种方法通过数据重塑(将宽格式转换为长格式,再转换回宽格式)来解决问题。它将原始数据“融化”成一个长格式表,其中每一行代表一个具体的单元格值,然后通过合并操作筛选出有效的键-列组合,最后“堆叠”回宽格式。
实现步骤:
代码示例:
import pandas as pd
import numpy as np
# 创建示例DataFrame
data = {
'key': ['key1', 'key2', 'key3', 'key1', 'key2'],
'colA': ['value1A', 'value2A', 'value3A', 'value4A', 'value5A'],
'colB': ['value1B', 'value2B', 'value3B', 'value4B', 'value5B'],
'colC': ['value1C', 'value2C', 'value3C', 'value4C', 'value5C'],
'colD': ['value1D', 'value2D', 'value3D', 'value4D', 'value5D']
}
df = pd.DataFrame(data)
# 1. 定义键与目标列的映射关系
d = {'key1': ['colA', 'colD'],
'key2': ['colB'],
'key3': ['colC'],
}
# 2. 融化DataFrame,保留原始索引和key列
melted_df = df.reset_index().melt(['index', 'key'])
# 3. 从映射字典创建映射DataFrame
# pd.Series(d).explode() 展平映射字典
# .rename_axis('key').reset_index(name='variable') 调整索引和列名
mapping_df = pd.Series(d).explode().rename_axis('key').reset_index(name='variable')
# 4. 合并融化后的DataFrame与映射DataFrame,筛选有效组合
merged_df = melted_df.merge(mapping_df)
# 5. 堆叠数据回宽格式,填充未匹配值
final_df = (merged_df
.set_index(['index', 'key', 'variable'])['value'] # 设置多级索引
.unstack('variable', fill_value='NA') # 以variable列进行堆叠,未匹配的填充'NA'
.reset_index('key') # 将key列从索引中移回普通列
.rename_axis(index=None, columns=None) # 清理索引和列名
)
# 将原始df的'key'列重新赋值,并确保顺序一致
df_result = df[['key']].copy() # 复制原始key列
df_result = df_result.set_index(final_df.index) # 对齐索引
df_result[final_df.columns.difference(['key'])] = final_df[final_df.columns.difference(['key'])]
df_result = df_result.reindex(columns=df.columns) # 确保列顺序与原始df一致
print(df_result)输出结果:
key colA colB colC colD 0 key1 value1A NA NA value1D 1 key2 NA value2B NA NA 2 key3 NA NA value3C NA 3 key1 value4A NA NA value4D 4 key2 NA value5B NA NA
注意:在实际应用中,melt、merge、unstack 的链式操作可以更紧凑地写在一起,如问题答案所示。上述代码为了教学目的,拆分了中间步骤。
本教程介绍了两种高效的向量化方法,用于在Pandas DataFrame中根据“键”列的值有条件地映射或填充多个目标列。
pd.get_dummies 和 df.mask 方法:
melt, merge, unstack 数据重塑方法:
两种方法都显著优于重复使用numpy.select,尤其是在处理大型数据集时,其向量化特性能够带来显著的性能提升。在选择具体方法时,应根据实际业务需求和代码的清晰度偏好进行权衡。对于简单的条件替换,mask方法可能更直观;而对于复杂的数据重构任务,melt/merge/unstack组合则提供了更强大的工具。
以上就是如何高效地基于键列值映射DataFrame中的多个列的详细内容,更多请关注其它相关文章!
# 将其
# 平易云 网站建设
# seo如何快速挖长尾
# 萍乡seo鱼刺系统
# 网站排名优化 满意宙to斯优惠
# 抖音官方网红推广网站
# 哪个seo大法最便宜
# seo实战密码有用么
# 无锡高端网站建设公司
# 学习网站建设设计图
# 找免费推广的网站
# 解决问题
# 编码
# 单元格
# 重构
# 两种
# 多个
# 掩码
# 转换为
# 布尔
# AI-powered
# 工具
# app
# 大数据
相关栏目:
【
Google疑问12 】
【
Facebook疑问10 】
【
优化推广96088 】
【
技术知识133117 】
【
IDC资讯59369 】
【
网络运营7196 】
【
IT资讯61894 】
相关推荐:
Sublime怎么配置YAML文件格式化_Sublime YAML Formatter插件教程
b站怎么用微信登录_b站微信登录方法
Python测试中模块导入路径解析的最佳实践
《全民k歌》网页版最新登录入口一览
优化CSS动画与J*aScript定时器协同:构建稳定Toast提示
服装短视频如何起号推广?服装短视频起号推广有什么要求?
vivo手机视频通话美颜怎么设置_vivo视频通话美颜开启方法
狙击外星人小游戏在线链接_狙击外星人小游戏网页链接
微信网页版在线登录 微信网页版在线使用入口
Sublime怎么格式化HTML代码_Sublime前端代码美化插件使用指南
抖音商城官网是什么_抖音商城官方网址与访问方法
Word如何将文字快速转成表格 Word文本转换成表格功能使用技巧【效率】
C#中的Record类型有什么优势?C# 9新特性Record与Class的用法区别
我居然低估了 DeepSeek,这次更新它做到了这些!
QQ邮箱手机版网页版 QQ邮箱登录入口地址
《书耽》更换手机号方法
Magento 2 产品保存事件中安全更新属性的最佳实践
解决Pandas DataFrame高度碎片化警告:高效创建多列的策略
使用VS Code作为你的个人知识管理系统
Three.js中动态更换3D模型纹理的教程
Win10输入法不见了怎么办 Win10找回语言栏图标教程
晓晓优选app支付宝绑定方法
PHP页面重载时变量值不重置的实现方法
iQOO手机信号差网络不稳定怎么办 信号问题原因排查与增强设置【攻略】
Linux如何开发轻量级数据服务模块_Linux服务化设计
CSS布局中意外顶部空白的调试与解决:深入理解padding-top
原子笔记app误删找回教程
Final Cut Pro视频加EQ教程
b站怎么查看视频的码率_b站视频码率查看方法
《领英》查看屏蔽名单方法
XPath动态元素定位:如何精准选择文本内容变化的元素
《理想汽车》权限管理设置方法
Go Goroutine调度与并发执行深度解析
苹果17 Pro如何启用分屏浏览_iPhone 17 Pro分屏浏览设置步骤
电脑的“恢复环境(WinRE)”找不到怎么办_Windows系统恢复环境重建【高级修复】
12306售票时间最新规定 | 网上订票和车站窗口时间一样吗
Python实战:高效处理实时数据流中的最小/最大值
蜻蜓FM如何设置移动流量播放
极兔快递官网查询入口手机版 手机极兔快递登录查询入口官方
Pandas中基于动态偏移量实现DataFrame列值位移的策略
HTML中多图片上传与预览:解决ID冲突的专业指南
《七读免费小说》开通会员方法
六级准考证号怎么查_四六级准考证查询入口官网
江苏大剧院会员卡购买步骤
《虎扑》取消评分记录方法
创建您的便携版VS Code:让配置随身携带
163邮箱网页版官方登录入口 163邮箱网页版访问页面
Excel宏怎么删除_Excel中删除宏的详细操作流程
抖音网页版官方链接 抖音网页版官网链接入口
创客贴登录页面入口 创客贴网页版最新网址链接
2025-11-29
运城市盐湖区信雨科技有限公司是一家深耕海外推广领域十年的专业服务商,作为谷歌推广与Facebook广告全球合作伙伴,聚焦外贸企业出海痛点,以数字化营销为核心,提供一站式海外营销解决方案。公司凭借十年行业沉淀与平台官方资源加持,打破传统外贸获客壁垒,助力企业高效开拓全球市场,成为中小企业出海的可靠合作伙伴。