日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程语言 > python >内容正文

python

干货:用Python进行数据清洗,这7种方法你一定要掌握

發(fā)布時(shí)間:2025/3/15 python 23 豆豆
生活随笔 收集整理的這篇文章主要介紹了 干货:用Python进行数据清洗,这7种方法你一定要掌握 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個(gè)參考.


導(dǎo)讀:數(shù)據(jù)清洗是數(shù)據(jù)分析的必備環(huán)節(jié),在進(jìn)行分析過程中,會有很多不符合分析要求的數(shù)據(jù),例如重復(fù)、錯誤、缺失、異常類數(shù)據(jù)。


作者:常國珍、趙仁乾、張秋劍

本文摘編自《Python數(shù)據(jù)科學(xué):技術(shù)詳解與商業(yè)實(shí)踐》,如需轉(zhuǎn)載請聯(lián)系我們




01 重復(fù)值處理


數(shù)據(jù)錄入過程、數(shù)據(jù)整合過程都可能會產(chǎn)生重復(fù)數(shù)據(jù),直接刪除是重復(fù)數(shù)據(jù)處理的主要方法。pandas提供查看、處理重復(fù)數(shù)據(jù)的方法duplicated和drop_duplicates。以如下數(shù)據(jù)為例:


>sample?=?pd.DataFrame({'id':[1,1,1,3,4,5],
???????????????????????'name':['Bob','Bob','Mark','Miki','Sully','Rose'],
???????????????????????'score':[99,99,87,77,77,np.nan],
???????????????????????'group':[1,1,1,2,1,2],})
>sample
group??id???name??score
0??????1???1????Bob???99.0
1??????1???1????Bob???99.0
2??????1???1???Mark???87.0
3??????2???3???Miki???77.0
4??????1???4??Sully???77.0
5??????2???5???Rose????NaN


發(fā)現(xiàn)重復(fù)數(shù)據(jù)通過duplicated方法完成,如下所示,可以通過該方法查看重復(fù)的數(shù)據(jù)。


>sample[sample.duplicated()]
group??id???name??score
1??????1???1????Bob???99.0


需要去重時(shí),可drop_duplicates方法完成:


>sample.drop_duplicates()
group??id???name??score
0??????1???1????Bob???99.0
2??????1???1???Mark???87.0
3??????2???3???Miki???77.0
4??????1???4??Sully???77.0
5??????2???5???Rose????NaN


drop_duplicates方法還可以按照某列去重,例如去除id列重復(fù)的所有記錄:


>sample.drop_duplicates('id')
group??id???name??score
0??????1???1????Bob???99.0
3??????2???3???Miki???77.0
4??????1???4??Sully???77.0
5??????2???5???Rose????NaN



02 缺失值處理


缺失值是數(shù)據(jù)清洗中比較常見的問題,缺失值一般由NA表示,在處理缺失值時(shí)要遵循一定的原則。


首先,需要根據(jù)業(yè)務(wù)理解處理缺失值,弄清楚缺失值產(chǎn)生的原因是故意缺失還是隨機(jī)缺失,再通過一些業(yè)務(wù)經(jīng)驗(yàn)進(jìn)行填補(bǔ)。一般來說當(dāng)缺失值少于20%時(shí),連續(xù)變量可以使用均值或中位數(shù)填補(bǔ);分類變量不需要填補(bǔ),單算一類即可,或者也可以用眾數(shù)填補(bǔ)分類變量。


當(dāng)缺失值處于20%-80%之間時(shí),填補(bǔ)方法同上。另外每個(gè)有缺失值的變量可以生成一個(gè)指示啞變量,參與后續(xù)的建模。當(dāng)缺失值多于80%時(shí),每個(gè)有缺失值的變量生成一個(gè)指示啞變量,參與后續(xù)的建模,不使用原始變量。


在下圖中展示了中位數(shù)填補(bǔ)缺失值和缺失值指示變量的生成過程。


▲圖5-8:缺失值填補(bǔ)示例


Pandas提供了fillna方法用于替換缺失值數(shù)據(jù),其功能類似于之前的replace方法,例如對于如下數(shù)據(jù):


>?sample
????group??id???name??score
0????1.0??1.0????Bob???99.0
1????1.0??1.0????Bob????NaN
2????NaN??1.0???Mark???87.0
3????2.0??3.0???Miki???77.0
4????1.0??4.0??Sully???77.0
5????NaN??NaN????NaN????NaN


分步驟進(jìn)行缺失值的查看和填補(bǔ)如下:


1. 查看缺失情況


在進(jìn)行數(shù)據(jù)分析前,一般需要了解數(shù)據(jù)的缺失情況,在Python中可以構(gòu)造一個(gè)lambda函數(shù)來查看缺失值,該lambda函數(shù)中,sum(col.isnull())表示當(dāng)前列有多少缺失,col.size表示當(dāng)前列總共多少行數(shù)據(jù):


>sample.apply(lambda?col:sum(col.isnull())/col.size)
group????0.333333
id???????0.166667
name?????0.166667
score????0.333333
dtype:?float64


2. 以指定值填補(bǔ)


pandas數(shù)據(jù)框提供了fillna方法完成對缺失值的填補(bǔ),例如對sample表的列score填補(bǔ)缺失值,填補(bǔ)方法為均值:


>sample.score.fillna(sample.score.mean())
0????99.0
1????85.0
2????87.0
3????77.0
4????77.0
5????85.0
Name:?score,?dtype:?float64


當(dāng)然還可以以分位數(shù)等方法進(jìn)行填補(bǔ):


>sample.score.fillna(sample.score.median())
0????99.0
1????82.0
2????87.0
3????77.0
4????77.0
5????82.0
Name:?score,?dtype:?float64


3. 缺失值指示變量


pandas數(shù)據(jù)框?qū)ο罂梢灾苯诱{(diào)用方法isnull產(chǎn)生缺失值指示變量,例如產(chǎn)生score變量的缺失值指示變量:


>sample.score.isnull()
0????False
1?????True
2????False
3????False
4????False
5?????True
Name:?score,?dtype:?bool


若想轉(zhuǎn)換為數(shù)值0,1型指示變量,可以使用apply方法,int表示將該列替換為int類型。


>sample.score.isnull().apply(int)
0????0
1????1
2????0
3????0
4????0
5????1
Name:?score,?dtype:?int64



03 噪聲值處理


噪聲值指數(shù)據(jù)中有一個(gè)或幾個(gè)數(shù)值與其他數(shù)值相比差異較大,又稱為異常值、離群值(outlier)。


對于大部分的模型而言,噪聲值會嚴(yán)重干擾模型的結(jié)果,并且使結(jié)論不真實(shí)或偏頗,如圖5-9。需要在數(shù)據(jù)預(yù)處理的時(shí)候清除所以噪聲值。噪聲值的處理方法很多,對于單變量,常見的方法有蓋帽法、分箱法;多變量的處理方法為聚類法。下面進(jìn)行詳細(xì)介紹:


▲圖5-9:噪聲值(異常值、離群值)示例:年齡數(shù)據(jù),圓圈為噪聲值


1. 蓋帽法


蓋帽法將某連續(xù)變量均值上下三倍標(biāo)準(zhǔn)差范圍外的記錄替換為均值上下三倍標(biāo)準(zhǔn)差值,即蓋帽處理(圖5-10)。


▲圖5-10:蓋帽法處理噪聲值示例


Python中可自定義函數(shù)完成蓋帽法。如下所示,參數(shù)x表示一個(gè)pd.Series列,quantile指蓋帽的范圍區(qū)間,默認(rèn)凡小于百分之1分位數(shù)和大于百分之99分位數(shù)的值將會被百分之1分位數(shù)和百分之99分位數(shù)替代:


>def?cap(x,quantile=[0.01,0.99]):
????"""蓋帽法處理異常值
????Args:
????????x:pd.Series列,連續(xù)變量
????????quantile:指定蓋帽法的上下分位數(shù)范圍
????"""


#?生成分位數(shù)
????Q01,Q99=x.quantile(quantile).values.tolist()

#?替換異常值為指定的分位數(shù)
????if?Q01?>?x.min():
????????x?=?x.copy()
????????x.loc[x<Q01]?=?Q01

????if?Q99?<?x.max():
????????x?=?x.copy()
????????x.loc[x>Q99]?=?Q99

????return(x)


現(xiàn)生成一組服從正態(tài)分布的隨機(jī)數(shù),sample.hist表示產(chǎn)生直方圖,更多繪圖方法會在下一章節(jié)進(jìn)行講解:


>sample?=?pd.DataFrame({'normal':np.random.randn(1000)})
>sample.hist(bins=50)


▲圖5-11:未處理噪聲時(shí)的變量直方圖


對pandas數(shù)據(jù)框所有列進(jìn)行蓋帽法轉(zhuǎn)換,可以以如下寫法,從直方圖對比可以看出蓋帽后極端值頻數(shù)的變化。


>new?=?sample.apply(cap,quantile=[0.01,0.99])
>new.hist(bins=50)


▲圖5-12:處理完噪聲后的變量直方圖


2. 分箱法


分箱法通過考察數(shù)據(jù)的“近鄰”來光滑有序數(shù)據(jù)的值。有序值分布到一些桶或箱中。


分箱法包括等深分箱:每個(gè)分箱中的樣本量一致;等寬分箱:每個(gè)分箱中的取值范圍一致。直方圖其實(shí)首先對數(shù)據(jù)進(jìn)行了等寬分箱,再計(jì)算頻數(shù)畫圖。


比如價(jià)格排序后數(shù)據(jù)為:4、8、15、21、21、24、25、28、34


將其劃分為(等深)箱:


  • 箱1:4、8、15?

  • 箱2:21、21、24?

  • 箱3:25、28、34?


將其劃分為(等寬)箱:


  • 箱1:4、8

  • 箱2:15、21、21、24?

  • 箱3:25、28、34?


分箱法將異常數(shù)據(jù)包含在了箱子中,在進(jìn)行建模的時(shí)候,不直接進(jìn)行到模型中,因而可以達(dá)到處理異常值的目的。


pandas的qcut函數(shù)提供了分箱的實(shí)現(xiàn)方法,下面介紹如何具體實(shí)現(xiàn)。


等寬分箱:qcut函數(shù)可以直接進(jìn)行等寬分箱,此時(shí)需要的待分箱的列和分箱個(gè)數(shù)兩個(gè)參數(shù),如下所示,sample數(shù)據(jù)的int列為從10個(gè)服從標(biāo)準(zhǔn)正態(tài)分布的隨機(jī)數(shù):


>sample?=pd.DataFrame({'normal':np.random.randn(10)})
>sample
normal
0????0.065108
1????-0.597031
2????0.635432
3????-0.491930
4????-1.894007
5????1.623684
6????1.723711
7????-0.225949
8????-0.213685
9????-0.309789


現(xiàn)分為5箱,可以看到,結(jié)果是按照寬度分為5份,下限中,cut函數(shù)自動選擇小于列最小值一個(gè)數(shù)值作為下限,最大值為上限,等分為五分。結(jié)果產(chǎn)生一個(gè)Categories類的列,類似于R中的factor,表示分類變量列。


此外弱數(shù)據(jù)存在缺失,缺失值將在分箱后將繼續(xù)保持缺失,如下所示:


>pd.cut(sample.normal,5)
????0????(-0.447,?0.277]
????1????(-1.17,?-0.447]
????2???????(0.277,?1.0]
????3????(-1.17,?-0.447]
????4????(-1.898,?-1.17]
????5???????(1.0,?1.724]
????6???????(1.0,?1.724]
????7????(-0.447,?0.277]
????8????(-0.447,?0.277]
????9????(-0.447,?0.277]
Name:?normal,?dtype:?category
Categories?(5,?interval[float64]):?[(-1.898,?-1.17]?<?(-1.17,?-0.447]?<?(-0.447,?0.277]?<?(0.277,?1.0]?<?(1.0,?1.724]]


這里也可以使用labels參數(shù)指定分箱后各個(gè)水平的標(biāo)簽,如下所示,此時(shí)相應(yīng)區(qū)間值被標(biāo)簽值替代:


>?pd.cut(sample.normal,bins=5,labels=[1,2,3,4,5])
0????1
1????1
2????2
3????2
4????3
5????3
6????4
7????4
8????5
9????5
Name:?normal,?dtype:?category
Categories?(5,?int64):?[1?<?2?<?3?<?4?<?5]


標(biāo)簽除了可以設(shè)定為數(shù)值,也可以設(shè)定為字符,如下所示,將數(shù)據(jù)等寬分為兩箱,標(biāo)簽為‘bad’,‘good’:


>pd.cut(sample.normal,bins=2,labels=['bad','good'])
0?????bad
1?????bad
2?????bad
3?????bad
4?????bad
5????good
6????good
7????good
8????good
9????good
Name:?normal,?dtype:?category
Categories?(2,?object):?[bad?<?good]


等深分箱:等深分箱中,各個(gè)箱的寬度可能不一,但頻數(shù)是幾乎相等的,所以可以采用數(shù)據(jù)的分位數(shù)來進(jìn)行分箱。依舊以之前的sample數(shù)據(jù)為例,現(xiàn)進(jìn)行等深度分2箱,首先找到2箱的分位數(shù):


>sample.normal.quantile([0,0.5,1])
0.0????0.0
0.5????4.5
1.0????9.0
Name:?normal,?dtype:?float64


在bins參數(shù)中設(shè)定分位數(shù)區(qū)間,如下所示完成分箱,include_lowest=True參數(shù)表示包含邊界最小值包含數(shù)據(jù)的最小值:


>pd.cut(sample.normal,bins=sample.normal.quantile([0,0.5,1]),
?include_lowest=True)
0????[0,?4.5]
1????[0,?4.5]
2????[0,?4.5]
3????[0,?4.5]
4????[0,?4.5]
5????(4.5,?9]
6????(4.5,?9]
7????(4.5,?9]
8????(4.5,?9]
9????(4.5,?9]
Name:?normal,?dtype:?category
Categories?(2,?object):?[[0,?4.5]?<?(4.5,?9)]


此外也可以加入label參數(shù)指定標(biāo)簽,如下所示:


>pd.cut(sample.normal,bins=sample.normal.quantile([0,0.5,1]),
?include_lowest=True)
0?????bad
1?????bad
2?????bad
3?????bad
4?????bad
5????good
6????good
7????good
8????good
9????good
Name:?normal,?dtype:?category
Categories?(2,?object):?[bad?<?good]


3. 多變量異常值處理-聚類法


通過快速聚類法將數(shù)據(jù)對象分組成為多個(gè)簇,在同一個(gè)簇中的對象具有較高的相似度,而不同的簇之間的對象差別較大。聚類分析可以挖掘孤立點(diǎn)以發(fā)現(xiàn)噪聲數(shù)據(jù),因?yàn)樵肼暠旧砭褪枪铝Ⅻc(diǎn)。


本案例考慮兩個(gè)變量income和age,散點(diǎn)圖如圖5-13所示,其中A、B表示異常值:


▲圖5-13:多變量異常值示例


對于聚類方法處理異常值,其步驟如下所示:


輸入:數(shù)據(jù)集S(包括N條記錄,屬性集D:{年齡、收入}),一條記錄為一個(gè)數(shù)據(jù)點(diǎn),一條記錄上的每個(gè)屬性上的值為一個(gè)數(shù)據(jù)單元格。數(shù)據(jù)集S有N×D個(gè)數(shù)據(jù)單元格,其中某些數(shù)據(jù)單元格是噪聲數(shù)據(jù)。


輸出:孤立數(shù)據(jù)點(diǎn)如圖所示。孤立點(diǎn)A是我們認(rèn)為它是噪聲數(shù)據(jù),很明顯它的噪聲屬性是收入,通過對收入變量使用蓋帽法可以剔除A。


另外,數(shù)據(jù)點(diǎn)B也是一個(gè)噪聲數(shù)據(jù),但是很難判定它在哪個(gè)屬性上的數(shù)據(jù)出現(xiàn)錯誤。這種情況下只可以使用多變量方法進(jìn)行處理。


常用檢查異常值聚類算法為K-means聚類,會在后續(xù)章節(jié)中詳細(xì)介紹,本節(jié)不贅述。


關(guān)于作者:常國珍,數(shù)據(jù)科學(xué)專家和金融技術(shù)專家。北京大學(xué)會計(jì)學(xué)博士,中國大數(shù)據(jù)產(chǎn)業(yè)生態(tài)聯(lián)盟專家委員會委員。

趙仁乾,數(shù)據(jù)科學(xué)家,在電信大數(shù)據(jù)和機(jī)器學(xué)習(xí)領(lǐng)域有豐富的實(shí)踐經(jīng)驗(yàn)。

張秋劍,大數(shù)據(jù)專家和金融行業(yè)技術(shù)專家,上海師范大學(xué)計(jì)算機(jī)科學(xué)技術(shù)碩士。?


本文摘編自《Python數(shù)據(jù)科學(xué):技術(shù)詳解與商業(yè)實(shí)踐》,經(jīng)出版方授權(quán)發(fā)布。


延伸閱讀《Python數(shù)據(jù)科學(xué)

點(diǎn)擊上圖了解及購買

轉(zhuǎn)載請聯(lián)系微信:togo-maruko


推薦語:本書從3個(gè)維度展開,技術(shù)維度:全面講解數(shù)據(jù)分析、數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)的核心技術(shù);業(yè)務(wù)維度,圍繞具體的業(yè)務(wù)生命周期展開技術(shù)知識點(diǎn)的講解;實(shí)踐維度,列舉的全部是商業(yè)案例,通過案例為數(shù)據(jù)科學(xué)從業(yè)者提供工作模板。



據(jù)統(tǒng)計(jì),99%的大咖都完成了這個(gè)神操作



更多精彩


在公眾號后臺對話框輸入以下關(guān)鍵詞

查看更多優(yōu)質(zhì)內(nèi)容!


PPT?|?報(bào)告?|?讀書?|?書單

大數(shù)據(jù)?|?揭秘?|?人工智能?|?AI

Python?|?機(jī)器學(xué)習(xí)?|?深度學(xué)習(xí)?|?神經(jīng)網(wǎng)絡(luò)

可視化?|?區(qū)塊鏈?|?干貨?|?數(shù)學(xué)


猜你想看


  • 極度燒腦+驚人發(fā)現(xiàn):4個(gè)顛覆你世界觀的量子理論實(shí)驗(yàn)

  • 入門科普:一文看懂NLP和中文分詞算法(附代碼舉例)

  • 長生不死、名人復(fù)活?瘋狂的AI時(shí)代,人類竟要靠IA實(shí)現(xiàn)“永生”

  • 干貨:手把手教你用Python讀寫CSV、JSON、Excel及解析HTML



Q:?你都用過哪些方法進(jìn)行數(shù)據(jù)清洗

歡迎留言與大家分享

覺得不錯,請把這篇文章分享給你的朋友

轉(zhuǎn)載 / 投稿請聯(lián)系:baiyu@hzbook.com

更多精彩,請?jiān)诤笈_點(diǎn)擊“歷史文章”查看

點(diǎn)擊閱讀原文,了解更多

總結(jié)

以上是生活随笔為你收集整理的干货:用Python进行数据清洗,这7种方法你一定要掌握的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。