irpas技术客

python 重复统计与常用去重(列表list、dataframe)_数据分析小鹏友_dataframe 去重统计

网络 3303

文章目录 一、列表 List1.1 重复统计法一法二 1.2 去重法一(利用 not in 与append)法二(利用set,顺序会乱)法三(利用set + sort,顺序不会乱) 二、DataFrame2.1 重复统计2.2 去重法一(unique,只能针对1列)法二(drop_duplicates,可针对多列)

一、列表 List list_ = ['a','b','b','c','d','d'] 1.1 重复统计 法一 dict([[i,list_.count(i)] for i in list_])

法二 from collections import Counter Counter(list_)

1.2 去重 法一(利用 not in 与append) dup_list = [] for i in list_: if i not in dup_list: dup_list.append(i) 法二(利用set,顺序会乱) list(set(list_)) 法三(利用set + sort,顺序不会乱) dup_list = list(set(list_)) dup_list.sort(key=list_.index) 二、DataFrame df = pd.DataFrame( { 'key1':['a','a','b','b','a','a','b','b'], 'key2':['one','two','one','two','one','one','two','two'], 'key3':[1,2,3,2,1,1,2,3], } )

2.1 重复统计 找出全部列的重复项 df[df.duplicated()] 只找出某几列相同的重复项 df[df.duplicated(['key1','key2'])] # 只找出key1, key2相同的重复项 找出每行数据重复出现的次数(≥2说明存在重复行) df.value_counts() 统计重复数据总共多少条 df[df.duplicated()].count() 2.2 去重 法一(unique,只能针对1列) df['key1'].unique() 法二(drop_duplicates,可针对多列) df.drop_duplicates( keep = first, # {first:保留第一个,last:保留最后一个} subset = [], # 默认所有列 inplace = False # 是否在原数据上修改,默认为False ) 参考:Python常用的几种去重方式参考:Python统计列表中的重复项出现的次数的方法 参考:pandas统计重复值次数


1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,会注明原创字样,如未注明都非原创,如有侵权请联系删除!;3.作者投稿可能会经我们编辑修改或补充;4.本站不提供任何储存功能只提供收集或者投稿人的网盘链接。

标签: #DataFrame #去重统计 #文章目录一列表 #List11 #重复统计法一法二12 #去重法一利用 #not #in