python数据去重的函数_python去重函数是什么
數(shù)據(jù)去重可以使用duplicated()和drop_duplicates()兩個(gè)方法。
DataFrame.duplicated(subset = None,keep =‘first’)返回boolean Series表示重復(fù)行
參數(shù):
subset:列標(biāo)簽或標(biāo)簽序列,可選
僅考慮用于標(biāo)識(shí)重復(fù)項(xiàng)的某些列,默認(rèn)情況下使用所有列
keep:{‘first’,‘last’,False},默認(rèn)’first’
first:標(biāo)記重復(fù),True除了第一次出現(xiàn)。
last:標(biāo)記重復(fù),True除了最后一次出現(xiàn)。
錯(cuò)誤:將所有重復(fù)項(xiàng)標(biāo)記為True。import numpy as np
import pandas as pd
from pandas import Series, DataFrame
df = pd.read_csv('./demo_duplicate.csv')
print(df)
print(df['Seqno'].unique()) # [0. 1.]
# 使用duplicated 查看重復(fù)值
# 參數(shù) keep 可以標(biāo)記重復(fù)值 {'first','last',False}
print(df['Seqno'].duplicated())
'''
0 False
1 True
2 True
3 True
4 False
Name: Seqno, dtype: bool
'''
# 刪除 series 重復(fù)數(shù)據(jù)
print(df['Seqno'].drop_duplicates())
'''
0 0.0
4 1.0
Name: Seqno, dtype: float64
'''
# 刪除 dataframe 重復(fù)數(shù)據(jù)
print(df.drop_duplicates(['Seqno'])) # 按照 Seqno 來(lái)去重
'''
Price Seqno Symbol time
0 1623.0 0.0 APPL 1473411962
4 1649.0 1.0 APPL 1473411963
'''
# drop_dujplicates() 第二個(gè)參數(shù) keep 包含的值 有: first、last、False
print(df.drop_duplicates(['Seqno'], keep='last')) # 保存最后一個(gè)
'''
Price Seqno Symbol time
3 1623.0 0.0 APPL 1473411963
4 1649.0 1.0 APPL 1473411963
'''
以上就是python去重函數(shù)是什么的詳細(xì)內(nèi)容,更多請(qǐng)關(guān)注php中文網(wǎng)其它相關(guān)文章!
本文原創(chuàng)發(fā)布php中文網(wǎng),轉(zhuǎn)載請(qǐng)注明出處,感謝您的尊重!
總結(jié)
以上是生活随笔為你收集整理的python数据去重的函数_python去重函数是什么的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: python计算2的平方代码_pytho
- 下一篇: int类型的实参与int*类型的形参不兼