當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

机器学习：正负样本数据量不平衡处理方法

發(fā)布時(shí)間：2023/12/20 编程问答 58 豆豆

生活随笔收集整理的這篇文章主要介紹了机器学习：正负样本数据量不平衡处理方法小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

無(wú)偏采樣：意味著真實(shí)樣本總體的類別比例在訓(xùn)練集中得以保持。

在訓(xùn)練集中正反例數(shù)目不同時(shí)，令表示正例數(shù)目，表示反例數(shù)目，觀測(cè)幾率為，，我們假設(shè)訓(xùn)練集是真是樣本總體的無(wú)偏采樣，因此觀測(cè)幾率就代表了真實(shí)幾率。只要分類器的預(yù)測(cè)幾率高于觀測(cè)幾率就應(yīng)判定為正例，即

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?若?，則預(yù)測(cè)為正例。

再縮放（再平衡）：? ? ? ? ? ? ?（1）。

再縮放思想雖然簡(jiǎn)單，但是實(shí)際操作卻不平凡，主要因?yàn)闊o(wú)偏采樣的假設(shè)往往不成立，就是說(shuō)我們未必能有效的基于訓(xùn)練集觀測(cè)幾率來(lái)推斷出真實(shí)幾率?，F(xiàn)有技術(shù)上大體上有三類做法：欠采樣（下采樣），過(guò)采樣（上采樣），閾值移動(dòng)。

欠采樣：若隨機(jī)丟失反例，可能丟失一些重要信息。代表性算法EasyEnsemble是利用集成學(xué)習(xí)機(jī)制，將多數(shù)類樣本劃分若干個(gè)集合供不同學(xué)習(xí)器使用，這樣對(duì)每個(gè)學(xué)習(xí)器來(lái)看都進(jìn)行了欠采樣，但在全局來(lái)看不會(huì)丟失信息。

過(guò)采樣：不能簡(jiǎn)單的對(duì)初始樣本進(jìn)行重復(fù)采樣，否則會(huì)招致嚴(yán)重的過(guò)擬合。代表性算法SMOTE，對(duì)訓(xùn)練集里的樣本進(jìn)行插值產(chǎn)生額外樣本。

閾值移動(dòng)：直接基于原始訓(xùn)練集進(jìn)行學(xué)習(xí)，但在用訓(xùn)練好的分類器進(jìn)行預(yù)測(cè)時(shí)，將式（1）嵌入決策過(guò)程中。

解決這類問(wèn)題主要分重采樣、欠采樣、調(diào)整權(quán)值?

總結(jié)

以上是生活随笔為你收集整理的机器学习：正负样本数据量不平衡处理方法的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。