日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

【机器学习】机器学习中的异常值的识别和处理

發(fā)布時間:2025/3/15 编程问答 21 豆豆
生活随笔 收集整理的這篇文章主要介紹了 【机器学习】机器学习中的异常值的识别和处理 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

用于機(jī)器學(xué)習(xí)的數(shù)據(jù)難免有異常值的存在,這就需要我們識別并處理異常值。

可惜,并沒有一個通用的識別異常值的解決方案,每種方法都有自己的優(yōu)勢和不足,嘗試綜合使用多種技術(shù)(如基于EllipticEnvelope和基于IQR的識別)并從整體上來看結(jié)果。

對于被判定為異常值的數(shù)據(jù),我們不妨也關(guān)注一下。比如我們的數(shù)據(jù)集是一個關(guān)于房子的數(shù)據(jù)集,其中一個特征是房間數(shù)。此時,如果一個房子因?yàn)閾碛?00+個房間被判定為異常值,那我們可以問問自己:這個數(shù)據(jù)真的是異常數(shù)據(jù),還是它本質(zhì)是一個旅館呢?

再說說處理異常值,它和識別異常值一樣,沒有什么絕對的準(zhǔn)則。我們可以從兩個角度(方面)來考慮對異常值的處理:
第一,要弄清楚是什么讓它們成為異常值的。如果你認(rèn)為它們是錯誤的觀察值,比如他們來自一個壞掉的傳感器或者是被記錯了的值,那么就要丟棄他們或者使用NaN來替換異常值,因?yàn)檫@些數(shù)據(jù)無法被我們信任。但是,如果我們認(rèn)為這些異常值時極端值(比如一個超級豪宅有100間臥室),那么把它們標(biāo)記為異常值或者對它們的值進(jìn)行轉(zhuǎn)換是比較合適的。
第二,應(yīng)該基于機(jī)器學(xué)習(xí)的目標(biāo)來處理異常值。例如,如果想要基于房屋的特征來預(yù)測其價(jià)格,那么可以合理的假設(shè)有100間臥室的大宅子的價(jià)格是由不同于普通家庭住宅的特征驅(qū)動的。此外,如果使用一個在線住房貸款的Web應(yīng)用的部分?jǐn)?shù)據(jù)來訓(xùn)練一個模型,那么就要假設(shè)潛在用戶中不存在想要買一棟有幾百間臥室的豪宅的億萬富翁。

所以,處理異常值,首先要想想為什么這個(些)數(shù)據(jù)是異常值,然后對于數(shù)據(jù)要有一個最終的目標(biāo)。最重要的是,要記住“決定不處理異常值”本身就是一個有潛在影響的決定。(想想Java的異常處理吧,發(fā)現(xiàn)異常全都不處理的話要異常處理體系干嘛呢?)

另外,如果數(shù)據(jù)中有異常值,那么采用標(biāo)準(zhǔn)化方法做縮放就不太合適了,因?yàn)槠骄岛头讲钍墚惓V档挠绊懞艽蟆_@種情況下,需要針對異常值使用一個魯棒性更高的縮放方法,比如RobustScaler。

總結(jié)

以上是生活随笔為你收集整理的【机器学习】机器学习中的异常值的识别和处理的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。