机器学习:正负样本数据量不平衡处理方法
無(wú)偏采樣:意味著真實(shí)樣本總體的類別比例在訓(xùn)練集中得以保持。
在訓(xùn)練集中正反例數(shù)目不同時(shí),令表示正例數(shù)目,表示反例數(shù)目,觀測(cè)幾率為,,我們假設(shè)訓(xùn)練集是真是樣本總體的無(wú)偏采樣,因此觀測(cè)幾率就代表了真實(shí)幾率。只要分類器的預(yù)測(cè)幾率高于觀測(cè)幾率就應(yīng)判定為正例,即
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?若?,則預(yù)測(cè)為正例。
再縮放(再平衡):? ? ? ? ? ? ?(1)。
再縮放思想雖然簡(jiǎn)單,但是實(shí)際操作卻不平凡,主要因?yàn)闊o(wú)偏采樣的假設(shè)往往不成立,就是說(shuō)我們未必能有效的基于訓(xùn)練集觀測(cè)幾率來(lái)推斷出真實(shí)幾率?,F(xiàn)有技術(shù)上大體上有三類做法:欠采樣(下采樣),過(guò)采樣(上采樣),閾值移動(dòng)。
欠采樣:若隨機(jī)丟失反例,可能丟失一些重要信息。代表性算法EasyEnsemble是利用集成學(xué)習(xí)機(jī)制,將多數(shù)類樣本劃分若干個(gè)集合供不同學(xué)習(xí)器使用,這樣對(duì)每個(gè)學(xué)習(xí)器來(lái)看都進(jìn)行了欠采樣,但在全局來(lái)看不會(huì)丟失信息。
過(guò)采樣:不能簡(jiǎn)單的對(duì)初始樣本進(jìn)行重復(fù)采樣,否則會(huì)招致嚴(yán)重的過(guò)擬合。代表性算法SMOTE,對(duì)訓(xùn)練集里的樣本進(jìn)行插值產(chǎn)生額外樣本。
閾值移動(dòng):直接基于原始訓(xùn)練集進(jìn)行學(xué)習(xí),但在用訓(xùn)練好的分類器進(jìn)行預(yù)測(cè)時(shí),將式(1)嵌入決策過(guò)程中。
解決這類問(wèn)題主要分重采樣、欠采樣、調(diào)整權(quán)值?
總結(jié)
以上是生活随笔為你收集整理的机器学习:正负样本数据量不平衡处理方法的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: python错误处理
- 下一篇: Pearson相关系数