日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

机器学习:正负样本数据量不平衡处理方法

發(fā)布時(shí)間:2023/12/20 编程问答 58 豆豆
生活随笔 收集整理的這篇文章主要介紹了 机器学习:正负样本数据量不平衡处理方法 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

無(wú)偏采樣:意味著真實(shí)樣本總體的類別比例在訓(xùn)練集中得以保持。

在訓(xùn)練集中正反例數(shù)目不同時(shí),令表示正例數(shù)目,表示反例數(shù)目,觀測(cè)幾率為,,我們假設(shè)訓(xùn)練集是真是樣本總體的無(wú)偏采樣,因此觀測(cè)幾率就代表了真實(shí)幾率。只要分類器的預(yù)測(cè)幾率高于觀測(cè)幾率就應(yīng)判定為正例,即

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?若?,則預(yù)測(cè)為正例。

再縮放(再平衡):? ? ? ? ? ? ?(1)。

再縮放思想雖然簡(jiǎn)單,但是實(shí)際操作卻不平凡,主要因?yàn)闊o(wú)偏采樣的假設(shè)往往不成立,就是說(shuō)我們未必能有效的基于訓(xùn)練集觀測(cè)幾率來(lái)推斷出真實(shí)幾率?,F(xiàn)有技術(shù)上大體上有三類做法:欠采樣(下采樣),過(guò)采樣(上采樣),閾值移動(dòng)。

欠采樣:若隨機(jī)丟失反例,可能丟失一些重要信息。代表性算法EasyEnsemble是利用集成學(xué)習(xí)機(jī)制,將多數(shù)類樣本劃分若干個(gè)集合供不同學(xué)習(xí)器使用,這樣對(duì)每個(gè)學(xué)習(xí)器來(lái)看都進(jìn)行了欠采樣,但在全局來(lái)看不會(huì)丟失信息。

過(guò)采樣:不能簡(jiǎn)單的對(duì)初始樣本進(jìn)行重復(fù)采樣,否則會(huì)招致嚴(yán)重的過(guò)擬合。代表性算法SMOTE,對(duì)訓(xùn)練集里的樣本進(jìn)行插值產(chǎn)生額外樣本。

閾值移動(dòng):直接基于原始訓(xùn)練集進(jìn)行學(xué)習(xí),但在用訓(xùn)練好的分類器進(jìn)行預(yù)測(cè)時(shí),將式(1)嵌入決策過(guò)程中。

解決這類問(wèn)題主要分重采樣、欠采樣、調(diào)整權(quán)值?

總結(jié)

以上是生活随笔為你收集整理的机器学习:正负样本数据量不平衡处理方法的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。