本文摘自php中文网,作者不言,侵删。
下面为大家分享一篇Python对多属性的重复数据去重实例,具有很好的参考价值,希望对大家有所帮助。一起过来看看吧python中的pandas模块中对重复数据去重步骤:
1)利用DataFrame中的duplicated方法返回一个布尔型的Series,显示各行是否有重复行,没有重复行显示为FALSE,有重复行显示为TRUE;
2)再利用DataFrame中的drop_duplicates方法用于返回一个移除了重复行的DataFrame。
注释:
如果duplicated方法和drop_duplicates方法中没有设置参数,则这两个方法默认会判断全部咧,如果在这两个方法中加入了指定的属性名(或者称为列名),例如:frame.drop_duplicates(['state']),则指定部分列(state列)进行重复项的判断。
具体实例如下:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 | >>> import pandas as pd
>>> data={ 'state' :[1,1,2,2], 'pop' :[ 'a' , 'b' , 'c' , 'd' ]}
>>> frame=pd.DataFrame(data)
>>> frame
pop state
0 a 1
1 b 1
2 c 2
3 d 2
>>> IsDuplicated=frame.duplicated()
>>> print IsDuplicated
0 False
1 False
2 False
3 False
dtype: bool
>>> frame=frame.drop_duplicates([ 'state' ])
>>> frame
pop state
0 a 1
2 c 2
>>> IsDuplicated=frame.duplicated([ 'state' ])
>>> print IsDuplicated
0 False
2 False
dtype: bool
>>>
|
以上就是Python对多属性的重复数据去重的详细内容,更多文章请关注木庄网络博客!!
相关阅读 >>
Python调用c# com dll组件的过程详解
Python可以开发软件吗
你知道Python吗
Python限制循环次数的方法
了解Python中的字符串是什么吗?
学Python要用什么软件
详解Python中get函数的用法(附代码)
Python怎么安装numpy模块?
Python怎么把数据框内数据写入数据库
Python数据类型之元组的详细介绍
更多相关阅读请进入《Python》频道 >>
人民邮电出版社
python入门书籍,非常畅销,超高好评,python官方公认好书。
转载请注明出处:木庄网络博客 » Python对多属性的重复数据去重