Python如何对CSV数据做清洗_数据预处理常用操作【教程】


Python清洗CSV数据的核心步骤是:用pandas读取并观察数据结构;统一处理缺失值(替换占位符、填充或删除);标准化日期、数字、文本格式;剔除重复与异常值;最后保存为UTF-8-SIG编码的干净CSV。

python如何对csv数据做清洗_数据预处理常用操作【教程】

Python处理CSV数据清洗和预处理,核心是用pandas读取、识别问题、统一格式、填充或剔除异常,再输出干净数据。不复杂但容易忽略细节。

读取CSV并初步观察数据

先用pandas加载文件,快速查看结构和典型值,判断是否有乱码、列名错位、空行等问题:

  • pd.read_csv("data.csv", encoding="utf-8") —— 明确指定编码,避免中文乱码;若报错可试encoding="gbk"
  • df.head(5)df.info() 查看前几行和每列数据类型、非空数量
  • df.describe(include="all") 快速了解数值与文本列的分布(如唯一值数、常见值)

处理缺失值与空字段

缺失值常见于空单元格、"NULL"、"N/A"、空白字符串等,需统一识别再处理:

  • df.replace({"": pd.NA, "NULL": pd.NA, "N/A": pd.NA}) 把常见占位符转为标准缺失标记
  • df.isna().sum() 查看各列缺失数量
  • 数值列可填均值:df["age"].fillna(df["age"].mean(), inplace=True)
  • 文本列常用众数或固定值(如"未知"):df["city"].fillna(df["city"].mode()[0], inplace=True)
  • 缺失过多(如>70%)且不可靠的列,考虑直接删:df.drop(columns=["remark"], inplace=True)

统一格式:日期、数字、文本标准化

同一含义的数据常以多种格式混存,需归一化才能后续分析:

动态WEB网站中的PHP和MySQL:直观的QuickPro指南第2版 动态WEB网站中的PHP和MySQL:直观的QuickPro指南第2版

动态WEB网站中的PHP和MySQL详细反映实际程序的需求,仔细地探讨外部数据的验证(例如信用卡卡号的格式)、用户登录以及如何使用模板建立网页的标准外观。动态WEB网站中的PHP和MySQL的内容不仅仅是这些。书中还提到如何串联J*aScript与PHP让用户操作时更快、更方便。还有正确处理用户输入错误的方法,让网站看起来更专业。另外还引入大量来自PEAR*函数库的强大功能,对常用的、强大的包

动态WEB网站中的PHP和MySQL:直观的QuickPro指南第2版 525 查看详情 动态WEB网站中的PHP和MySQL:直观的QuickPro指南第2版
  • 日期列:用 pd.to_datetime(df["date"], errors="coerce") 转换,错误值变NaT;再用 dt.datedt.strftime("%Y-%m-%d") 格式化
  • 金额/数字含逗号或货币符号(如"$1,234.56"):df["price"].str.replace(r"[^\d.-]", "", regex=True).astype(float)
  • 文本列去首尾空格+统一小写:df["name"] = df["name"].str.strip().str.lower()
  • 分类字段去重规整:df["status"] = df["status"].str.replace(r"\s+", " ", regex=True).str.strip()

剔除重复与明显异常行

重复记录影响统计,明显错误值(如年龄=999、价格=-1)需定位清除:

  • 查重复:df.duplicated().sum();删重复(保留首次):df.drop_duplicates(inplace=True)
  • 按业务逻辑设合理范围,例如年龄在0–120之间:df = df[(df["age"] >= 0) & (df["age"]
  • 用箱线图法识别数值离群点(可选):Q1 = df["score"].quantile(0.25); Q3 = df["score"].quantile(0.75); IQR = Q3 - Q1; df = df[~((df["score"] (Q3 + 1.5*IQR)))]

基本上就这些。清洗不是一步到位,建议每步后用 df.info() 和抽样检查验证效果。保存清洗后数据用 df.to_csv("cleaned.csv", index=False, encoding="utf-8-sig")(加-sig让Excel能正常打开中文)。

以上就是Python如何对CSV数据做清洗_数据预处理常用操作【教程】的详细内容,更多请关注其它相关文章!


# 中文网  # 银川科技型网站优化  # 潜山seo优化公司  # 盐城网站建设哪几种  # 遂宁行业网站建设  # 成都营销推广代理招聘  # 网站建设的对接api  # 长春seo服务软件  # 潮州媒体推广网站  # 桥头网站建设与管理  # 宁乡营销推广软件  # 更快  # 仅是  # 解决问题  # excel  # 相关文章  # 首次  # 如何用  # 自动生成  # 自己的  # 数据结构  #   # 数据清洗  # csv  # 中文乱码  # 编码  # python 


相关栏目: 【 Google疑问12 】 【 Facebook疑问10 】 【 优化推广96088 】 【 技术知识133117 】 【 IDC资讯59369 】 【 网络运营7196 】 【 IT资讯61894


相关推荐: 秋风萧瑟洪波涌起中的萧瑟指的是什么  Go Goroutine调度与并发执行深度解析  苹果手机聊天记录删除了如何恢复  《宝可梦大集结》S4冠军之路开始时间介绍  毒蘑菇VOLUMESHADER_BM官网首页登录入口 毒蘑菇VOLUMESHADER_BM官网首页登录入口说明  Flash AS3.0简易相册制作  mysql怎么查询数据_mysql基础查询语句使用教程  OPPO A3 WiFi频繁断开怎么办 OPPO A3网络优化技巧  荣耀magicv5怎么上手测评  2025考研成绩查询时间入口分享  Safari浏览器自动填表功能失效怎么办 Safari表单管理修复  漫蛙manwa漫画官网链接_漫蛙manwa最新可用网址推荐  铁路12306入口 铁路12306官网版入口登录网址  word表格如何按某一列内容进行排序_Word表格按列排序方法  嘴唇干裂起皮怎么办 唇部护理与预防干裂的方法【详解】  从J*a应用程序中导出MySQL表数据的技术指南  Magento 2 产品保存事件中安全更新属性的最佳实践  如何发挥新媒体矩阵作用?新媒体矩阵怎么搭建?  rabbitmq 持久化有什么缺点?  在Django中动态检查模型关联:一种灵活的解决方案  Windows自带的便笺数据如何备份_防止数据丢失的便利贴迁移教程【干货】  Flexbox布局中Stencil组件宽度不显示问题解析与:host尺寸控制  解决VS Code中Python版本冲突与输出异常的指南  word页码灰色不能用如何解决  j*a中赋值运算符是什么?  在XML中嵌入二进制数据(如图片)的最佳实践是什么? Base64编码与解析注意事项  全球各国上班时间表外贸邮件时间  苹果如何下载nanobanana  解决 Vue 3 组件未定义错误:理解 createApp 与根组件的正确使用  德邦快递收费标准详解  win11关机几秒又自己开机 Win11关机自动重启问题修复  韩剧圈正版官网入口_韩剧圈官方指定登录  《飞猪旅行》购买汽车票方法  VS Code快捷键when上下文子句的妙用  风神瞳获取全攻略  Mac hosts文件在哪里_Mac修改hosts文件详细教程  感染了幽门螺杆菌一定会导致胃癌吗?蚂蚁庄园今日答案最新11.30  小米倒班助手添加日历提醒  圆通快递官网入口查询单号 手机版官方查询入口  优化CSS动画与J*aScript定时器协同:构建稳定Toast提示  Teambition网盘如何共享文件  餐馆菜篮选购指南  win11如何开启单声道音频 Win11为听障用户合并左右声道【辅助】  《海豚家》注销账号方法  C++中std::thread和std::async的区别_C++并发编程与线程与异步任务比较  海棠书屋官方在线书籍入口 海棠书屋文学作品浏览官网链接  如何在mysql中比较InnoDB和MyISAM区别  《鹿路通》退余额方法  原子笔记app误删找回教程  《米姆米姆哈》米姆获取及技能攻略 

 2025-12-18

了解您产品搜索量及市场趋势,制定营销计划

同行竞争及网站分析保障您的广告效果

点击免费数据支持

提交您的需求,1小时内享受我们的专业解答。

运城市盐湖区信雨科技有限公司


运城市盐湖区信雨科技有限公司

运城市盐湖区信雨科技有限公司是一家深耕海外推广领域十年的专业服务商,作为谷歌推广与Facebook广告全球合作伙伴,聚焦外贸企业出海痛点,以数字化营销为核心,提供一站式海外营销解决方案。公司凭借十年行业沉淀与平台官方资源加持,打破传统外贸获客壁垒,助力企业高效开拓全球市场,成为中小企业出海的可靠合作伙伴。

 8156699

 13765294890

 8156699@qq.com

Notice

We and selected third parties use cookies or similar technologies for technical purposes and, with your consent, for other purposes as specified in the cookie policy.
You can consent to the use of such technologies by closing this notice, by interacting with any link or button outside of this notice or by continuing to browse otherwise.