Python对多属性的重复数据去重


本文摘自php中文网,作者不言,侵删。

下面为大家分享一篇Python对多属性的重复数据去重实例,具有很好的参考价值,希望对大家有所帮助。一起过来看看吧

python中的pandas模块中对重复数据去重步骤:

1)利用DataFrame中的duplicated方法返回一个布尔型的Series,显示各行是否有重复行,没有重复行显示为FALSE,有重复行显示为TRUE;

2)再利用DataFrame中的drop_duplicates方法用于返回一个移除了重复行的DataFrame。

注释:

如果duplicated方法和drop_duplicates方法中没有设置参数,则这两个方法默认会判断全部咧,如果在这两个方法中加入了指定的属性名(或者称为列名),例如:frame.drop_duplicates(['state']),则指定部分列(state列)进行重复项的判断。

具体实例如下:

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

>>> import pandas as pd

>>> data={'state':[1,1,2,2],'pop':['a','b','c','d']}

>>> frame=pd.DataFrame(data)

>>> frame

 pop state

0 a  1

1 b  1

2 c  2

3 d  2

>>> IsDuplicated=frame.duplicated()

>>> print IsDuplicated

0 False

1 False

2 False

3 False

dtype: bool

>>> frame=frame.drop_duplicates(['state'])

>>> frame

 pop state

0 a  1

2 c  2

>>> IsDuplicated=frame.duplicated(['state'])

>>> print IsDuplicated

0 False

2 False

dtype: bool

>>>


以上就是Python对多属性的重复数据去重的详细内容,更多文章请关注木庄网络博客!!

相关阅读 >>

Python调用c# com dll组件的过程详解

Python可以开发软件吗

你知道Python

Python限制循环次数的方法

了解Python中的字符串是什么吗?

Python要用什么软件

详解Python中get函数的用法(附代码)

Python怎么安装numpy模块?

Python怎么把数据框内数据写入数据库

Python数据类型之元组的详细介绍

更多相关阅读请进入《Python》频道 >>




打赏

取消

感谢您的支持,我会继续努力的!

扫码支持
扫码打赏,您说多少就多少

打开支付宝扫一扫,即可进行扫码打赏哦

分享从这里开始,精彩与您同在

评论

管理员已关闭评论功能...