本文摘自php中文网,作者coldplay.xixi,侵删。

python 在对 excel 操作的同时,前面文章中说了数据的读取、插入、简单分析,还有一个非常重要的点就是数据清洗。那什么叫数据清洗,说白了就是去除数据文本中的垃圾值,比如:存在的空值、多余的空格、数据格式等等的处理。
相关免费学习推荐:python视频教程
1,导入 python 库、读取 excel 数据
1 | # 导入 pandas 库import pandas as pd# read_excel() 读取 excel 数据# DataFrame() 将读取到的数据转换为 DataFrame 数据df = pd.DataFrame(pd.read_excel( 'data.xlsx' ))
|
2,数据清洗(去除空值)
1 | # dropna() 函数去除 df 数据表中存在空值的所有行df.dropna(how= 'any' )# mean() 函数计算 age 字段所在列的平均值age_pre = df[ 'age' ].mean()# 使用 fillna() 函数对存在的空值进行填充,将 age_pre 的值填充到字段为空的值内面df[ 'age' ].fillna(age_pre)
|
3,数据清洗(清除字段中的空格)
1 | # 清除字段的空格df[ 'name' ] = df[ 'name' ].map(str.strip)
|
4,数据清洗(对某个列进行重命名)
1 | # rename() 函数对列进行重命名df.rename(columns={ 'name' : 'name_new' })
|
5,数据清洗(清除某一列中的重复值)
1 | # 从前往后查找某个列中的重复值,如果存在则清除后面所出现的重复值df[ 'name' ].drop_duplicates()# 从后往前查找某个列中的重复值,如果存在则清除前面所出现的重复值df[ 'city' ].drop_duplicates(keep= 'last' )# 两种正好是按照相反的清除顺序
|
6,数据清洗(数据值替换)
1 | # 将某一列中的具体值进行替换df[ 'name' ].replace( 'laow' , 'lwsbc' )
|
相关免费学习推荐:python教程(视频)
以上就是python 操作 excel 系列之:数据清洗的详细内容,更多文章请关注木庄网络博客!!
相关阅读 >>
Python开发安卓app可行吗
Python中的全局变量和局部变量的区别(代码详解)
Python如何计时
怎么看Python安装了哪些库
Python中sorted是什么
Python如何安装rabbitmq
Python对mysql数据库操作的实例详解
Python判断两个list是否是父子集关系的实例
Python的变量类型-数字类型number(4种详解)
Python为什么要用class
更多相关阅读请进入《Python》频道 >>
人民邮电出版社
python入门书籍,非常畅销,超高好评,python官方公认好书。
转载请注明出处:木庄网络博客 » python 操作 excel 系列之:数据清洗