不平衡样本处理方法
原文鏈接:http://blog.csdn.net/heyongluoyao8/article/details/49408131
在分類(lèi)中如何處理訓(xùn)練集中不平衡問(wèn)題
??在很多機(jī)器學(xué)習(xí)任務(wù)中,訓(xùn)練集中可能會(huì)存在某個(gè)或某些類(lèi)別下的樣本數(shù)遠(yuǎn)大于另一些類(lèi)別下的樣本數(shù)目。即類(lèi)別不平衡,為了使得學(xué)習(xí)達(dá)到更好的效果,因此需要解決該類(lèi)別不平衡問(wèn)題。
Jason Brownlee?的回復(fù):
原文標(biāo)題:8 Tactics to Combat Imbalanced Classes in Your Machine Learning Dataset?
你在對(duì)一個(gè)類(lèi)別不均衡的數(shù)據(jù)集進(jìn)行分類(lèi)時(shí)得到了90%的準(zhǔn)確度(Accuracy)。當(dāng)你進(jìn)一步分析發(fā)現(xiàn),數(shù)據(jù)集的90%的樣本是屬于同一個(gè)類(lèi),并且分類(lèi)器將所有的樣本都分類(lèi)為該類(lèi)。在這種情況下,顯然該分類(lèi)器是無(wú)效的。并且這種無(wú)效是由于訓(xùn)練集中類(lèi)別不均衡而導(dǎo)致的。?
??首先舉幾個(gè)所收到的郵件中關(guān)于類(lèi)別不均衡的例子:
- 在一個(gè)二分類(lèi)問(wèn)題中,訓(xùn)練集中class 1的樣本數(shù)比class 2的樣本數(shù)是60:1。使用邏輯回歸進(jìn)行分類(lèi),最后結(jié)果是其忽略了class 2,即其將所有的訓(xùn)練樣本都分類(lèi)為class 1。
- 在分類(lèi)任務(wù)的數(shù)據(jù)集中,有三個(gè)類(lèi)別,分別為A,B,C。在訓(xùn)練集中,A類(lèi)的樣本占70%,B類(lèi)的樣本占25%,C類(lèi)的樣本占5%。最后我的分類(lèi)器對(duì)類(lèi)A的樣本過(guò)擬合了,而對(duì)其它兩個(gè)類(lèi)別的樣本欠擬合。
什么是類(lèi)別不均衡問(wèn)題
類(lèi)別數(shù)據(jù)不均衡是分類(lèi)任務(wù)中一個(gè)典型的存在的問(wèn)題。簡(jiǎn)而言之,即數(shù)據(jù)集中,每個(gè)類(lèi)別下的樣本數(shù)目相差很大。例如,在一個(gè)二分類(lèi)問(wèn)題中,共有100個(gè)樣本(100行數(shù)據(jù),每一行數(shù)據(jù)為一個(gè)樣本的表征),其中80個(gè)樣本屬于class 1,其余的20個(gè)樣本屬于class 2,class 1:class2=80:20=4:1,這便屬于類(lèi)別不均衡。當(dāng)然,類(lèi)別不均衡問(wèn)同樣會(huì)發(fā)生在多分類(lèi)任務(wù)中。它們的解決方法是一樣的。因此,為了便于討論與理解,我們從二分類(lèi)任務(wù)入手進(jìn)行講解。
類(lèi)別不均衡問(wèn)題是現(xiàn)實(shí)中很常見(jiàn)的問(wèn)題
大部分分類(lèi)任務(wù)中,各類(lèi)別下的數(shù)據(jù)個(gè)數(shù)基本上不可能完全相等,但是一點(diǎn)點(diǎn)差異是不會(huì)產(chǎn)生任何影響與問(wèn)題的。?
??在現(xiàn)實(shí)中有很多類(lèi)別不均衡問(wèn)題,它是常見(jiàn)的,并且也是合理的,符合人們期望的。如,在欺詐交易識(shí)別中,屬于欺詐交易的應(yīng)該是很少部分,即絕大部分交易是正常的,只有極少部分的交易屬于欺詐交易。這就是一個(gè)正常的類(lèi)別不均衡問(wèn)題。又如,在客戶(hù)流失的數(shù)據(jù)集中,絕大部分的客戶(hù)是會(huì)繼續(xù)享受其服務(wù)的(非流失對(duì)象),只有極少數(shù)部分的客戶(hù)不會(huì)再繼續(xù)享受其服務(wù)(流失對(duì)象)。一般而已,如果類(lèi)別不平衡比例超過(guò)4:1,那么其分類(lèi)器會(huì)大大地因?yàn)閿?shù)據(jù)不平衡性而無(wú)法滿(mǎn)足分類(lèi)要求的。因此在構(gòu)建分類(lèi)模型之前,需要對(duì)分類(lèi)不均衡性問(wèn)題進(jìn)行處理。?
??在前面,我們使用準(zhǔn)確度這個(gè)指標(biāo)來(lái)評(píng)價(jià)分類(lèi)質(zhì)量,可以看出,在類(lèi)別不均衡時(shí),準(zhǔn)確度這個(gè)評(píng)價(jià)指標(biāo)并不能work。因?yàn)榉诸?lèi)器將所有的樣本都分類(lèi)到大類(lèi)下面時(shí),該指標(biāo)值仍然會(huì)很高。即,該分類(lèi)器偏向了大類(lèi)這個(gè)類(lèi)別的數(shù)據(jù)。
八大解決方法
- 擴(kuò)大數(shù)據(jù)集?
當(dāng)遇到類(lèi)別不均衡問(wèn)題時(shí),首先應(yīng)該想到,是否可能再增加數(shù)據(jù)(一定要有小類(lèi)樣本數(shù)據(jù)),更多的數(shù)據(jù)往往戰(zhàn)勝更好的算法。因?yàn)闄C(jī)器學(xué)習(xí)是使用現(xiàn)有的數(shù)據(jù)多整個(gè)數(shù)據(jù)的分布進(jìn)行估計(jì),因此更多的數(shù)據(jù)往往能夠得到更多的分布信息,以及更好分布估計(jì)。即使再增加小類(lèi)樣本數(shù)據(jù)時(shí),又增加了大類(lèi)樣本數(shù)據(jù),也可以使用放棄一部分大類(lèi)數(shù)據(jù)(即對(duì)大類(lèi)數(shù)據(jù)進(jìn)行欠采樣)來(lái)解決。 -
嘗試其它評(píng)價(jià)指標(biāo)?
? ? ? ? 從前面的分析可以看出,準(zhǔn)確度這個(gè)評(píng)價(jià)指標(biāo)在類(lèi)別不均衡的分類(lèi)任務(wù)中并不能work,甚至進(jìn)行誤導(dǎo)(分類(lèi)器不work,但是從這個(gè)指標(biāo)來(lái)看,該分類(lèi)器有著很好的評(píng)價(jià)指標(biāo)得分)。因此在類(lèi)別不均衡分類(lèi)任務(wù)中,需要使用更有說(shuō)服力的評(píng)價(jià)指標(biāo)來(lái)對(duì)分類(lèi)器進(jìn)行評(píng)價(jià)。如何對(duì)不同的問(wèn)題選擇有效的評(píng)價(jià)指標(biāo)參見(jiàn)這里。?
??上面的超鏈接中的文章,講述了如何對(duì)乳腺癌患者復(fù)發(fā)類(lèi)別不均衡數(shù)據(jù)進(jìn)行分類(lèi)。在文中,推薦了幾個(gè)比傳統(tǒng)的準(zhǔn)確度更有效的評(píng)價(jià)指標(biāo): -
混淆矩陣(Confusion Matrix):使用一個(gè)表格對(duì)分類(lèi)器所預(yù)測(cè)的類(lèi)別與其真實(shí)的類(lèi)別的樣本統(tǒng)計(jì),分別為:TP、FN、FP與TN。
- 精確度(Precision)
- 召回率(Recall)
- F1得分(F1 Score):精確度與找召回率的加權(quán)平均。
特別是:
- Kappa (Cohen kappa)
-
ROC曲線(ROC Curves):見(jiàn)Assessing and Comparing Classifier Performance with ROC Curves
-
對(duì)數(shù)據(jù)集進(jìn)行重采樣?
?可以使用一些策略該減輕數(shù)據(jù)的不平衡程度。該策略便是采樣(sampling),主要有兩種采樣方法來(lái)降低數(shù)據(jù)的不平衡性。 -
對(duì)小類(lèi)的數(shù)據(jù)樣本進(jìn)行采樣來(lái)增加小類(lèi)的數(shù)據(jù)樣本個(gè)數(shù),即過(guò)采樣(over-sampling ,采樣的個(gè)數(shù)大于該類(lèi)樣本的個(gè)數(shù))。
-
對(duì)大類(lèi)的數(shù)據(jù)樣本進(jìn)行采樣來(lái)減少該類(lèi)數(shù)據(jù)樣本的個(gè)數(shù),即欠采樣(under-sampling,采樣的次數(shù)少于該類(lèi)樣本的個(gè)素)。
? ? ? ? 采樣算法往往很容易實(shí)現(xiàn),并且其運(yùn)行速度快,并且效果也不錯(cuò)。更詳細(xì)的內(nèi)容參見(jiàn)這里。
一些經(jīng)驗(yàn)法則:
- 考慮對(duì)大類(lèi)下的樣本(超過(guò)1萬(wàn)、十萬(wàn)甚至更多)進(jìn)行欠采樣,即刪除部分樣本;
- 考慮對(duì)小類(lèi)下的樣本(不足1為甚至更少)進(jìn)行過(guò)采樣,即添加部分樣本的副本;
- 考慮嘗試隨機(jī)采樣與非隨機(jī)采樣兩種采樣方法;
- 考慮對(duì)各類(lèi)別嘗試不同的采樣比例,比一定是1:1,有時(shí)候1:1反而不好,因?yàn)榕c現(xiàn)實(shí)情況相差甚遠(yuǎn);
-
考慮同時(shí)使用過(guò)采樣與欠采樣。
-
嘗試產(chǎn)生人工數(shù)據(jù)樣本?
? ? ? ?一種簡(jiǎn)單的人工樣本數(shù)據(jù)產(chǎn)生的方法便是,對(duì)該類(lèi)下的所有樣本每個(gè)屬性特征的取值空間中隨機(jī)選取一個(gè)組成新的樣本,即屬性值隨機(jī)采樣。你可以使用基于經(jīng)驗(yàn)對(duì)屬性值進(jìn)行隨機(jī)采樣而構(gòu)造新的人工樣本,或者使用類(lèi)似樸素貝葉斯方法假設(shè)各屬性之間互相獨(dú)立進(jìn)行采樣,這樣便可得到更多的數(shù)據(jù),但是無(wú)法保證屬性之前的線性關(guān)系(如果本身是存在的)。?
??有一個(gè)系統(tǒng)的構(gòu)造人工數(shù)據(jù)樣本的方法SMOTE(Synthetic Minority Over-sampling Technique)。SMOTE是一種過(guò)采樣算法,它構(gòu)造新的小類(lèi)樣本而不是產(chǎn)生小類(lèi)中已有的樣本的副本,即該算法構(gòu)造的數(shù)據(jù)是新樣本,原數(shù)據(jù)集中不存在的。該基于距離度量選擇小類(lèi)別下兩個(gè)或者更多的相似樣本,然后選擇其中一個(gè)樣本,并隨機(jī)選擇一定數(shù)量的鄰居樣本對(duì)選擇的那個(gè)樣本的一個(gè)屬性增加噪聲,每次處理一個(gè)屬性。這樣就構(gòu)造了更多的新生數(shù)據(jù)。 -
嘗試不同的分類(lèi)算法?
? ? ? ?強(qiáng)烈建議不要對(duì)待每一個(gè)分類(lèi)都使用自己喜歡而熟悉的分類(lèi)算法。應(yīng)該使用不同的算法對(duì)其進(jìn)行比較,因?yàn)椴煌乃惴ㄊ褂糜诓煌娜蝿?wù)與數(shù)據(jù)。具體可以參見(jiàn)“Why you should be Spot-Checking Algorithms on your Machine Learning Problems”。?
? ? ? ?決策樹(shù)往往在類(lèi)別不均衡數(shù)據(jù)上表現(xiàn)不錯(cuò)。它使用基于類(lèi)變量的劃分規(guī)則去創(chuàng)建分類(lèi)樹(shù),因此可以強(qiáng)制地將不同類(lèi)別的樣本分開(kāi)。目前流行的決策樹(shù)算法有:C4.5、C5.0、CART和Random Forest等。 -
嘗試對(duì)模型進(jìn)行懲罰
? ? ? ?你可以使用相同的分類(lèi)算法,但是使用一個(gè)不同的角度,比如你的分類(lèi)任務(wù)是識(shí)別那些小類(lèi),那么可以對(duì)分類(lèi)器的小類(lèi)樣本數(shù)據(jù)增加權(quán)值,降低大類(lèi)樣本的權(quán)值(這種方法其實(shí)是產(chǎn)生了新的數(shù)據(jù)分布,即產(chǎn)生了新的數(shù)據(jù)集,譯者注),從而使得分類(lèi)器將重點(diǎn)集中在小類(lèi)樣本身上。一個(gè)具體做法就是,在訓(xùn)練分類(lèi)器時(shí),若分類(lèi)器將小類(lèi)樣本分錯(cuò)時(shí)額外增加分類(lèi)器一個(gè)小類(lèi)樣本分錯(cuò)代價(jià),這個(gè)額外的代價(jià)可以使得分類(lèi)器更加“關(guān)心”小類(lèi)樣本。如penalized-SVM和penalized-LDA算法。
? ?? Weka中有一個(gè)懲罰模型的通用框架CostSensitiveClassifier,它能夠?qū)θ魏畏诸?lèi)器進(jìn)行封裝,并且使用一個(gè)自定義的懲罰矩陣對(duì)分錯(cuò)的樣本進(jìn)行懲罰。?
??如果你鎖定一個(gè)具體的算法時(shí),并且無(wú)法通過(guò)使用重采樣來(lái)解決不均衡性問(wèn)題而得到較差的分類(lèi)結(jié)果。這樣你便可以使用懲罰模型來(lái)解決不平衡性問(wèn)題。但是,設(shè)置懲罰矩陣是一個(gè)復(fù)雜的事,因此你需要根據(jù)你的任務(wù)嘗試不同的懲罰矩陣,并選取一個(gè)較好的懲罰矩陣。 -
嘗試一個(gè)新的角度理解問(wèn)題?
? ?? 我們可以從不同于分類(lèi)的角度去解決數(shù)據(jù)不均衡性問(wèn)題,我們可以把那些小類(lèi)的樣本作為異常點(diǎn)(outliers),因此該問(wèn)題便轉(zhuǎn)化為異常點(diǎn)檢測(cè)(anomaly detection)與變化趨勢(shì)檢測(cè)問(wèn)題(change detection)。? ???異常點(diǎn)檢測(cè)即是對(duì)那些罕見(jiàn)事件進(jìn)行識(shí)別。如通過(guò)機(jī)器的部件的振動(dòng)識(shí)別機(jī)器故障,又如通過(guò)系統(tǒng)調(diào)用序列識(shí)別惡意程序。這些事件相對(duì)于正常情況是很少見(jiàn)的。?
?變化趨勢(shì)檢測(cè)類(lèi)似于異常點(diǎn)檢測(cè),不同在于其通過(guò)檢測(cè)不尋常的變化趨勢(shì)來(lái)識(shí)別。如通過(guò)觀察用戶(hù)模式或銀行交易來(lái)檢測(cè)用戶(hù)行為的不尋常改變。?
??將小類(lèi)樣本作為異常點(diǎn)這種思維的轉(zhuǎn)變,可以幫助考慮新的方法去分離或分類(lèi)樣本。這兩種方法從不同的角度去思考,讓你嘗試新的方法去解決問(wèn)題。 -
嘗試創(chuàng)新?
??仔細(xì)對(duì)你的問(wèn)題進(jìn)行分析與挖掘,是否可以將你的問(wèn)題劃分成多個(gè)更小的問(wèn)題,而這些小問(wèn)題更容易解決。你可以從這篇文章In classification, how do you handle an unbalanced training set?中得到靈感。例如:- 將你的大類(lèi)壓縮成小類(lèi);
- 使用One Class分類(lèi)器(將小類(lèi)作為異常點(diǎn));
- 使用集成方式,訓(xùn)練多個(gè)分類(lèi)器,然后聯(lián)合這些分類(lèi)器進(jìn)行分類(lèi);?
….
這些想法只是冰山一角,你可以想到更多的有趣的和有創(chuàng)意的想法去解決問(wèn)題。更多的想法參加Reddit的文章http://www.quora.com/In-classification-how-do-you-handle-an-unbalanced-training-set。
選擇某一種方法并使用它
??你不必成為一個(gè)精通所有算法的算法奇才或者一個(gè)建立準(zhǔn)確而可靠的處理數(shù)據(jù)不平衡的模型的統(tǒng)計(jì)學(xué)家,你只需要根據(jù)你的問(wèn)題的實(shí)際情況從上述算法或方法中去選擇一種或兩種方法去使用。希望上述的某些方法能夠解決你的問(wèn)題。例如使用其它評(píng)價(jià)指標(biāo)或重采樣算法速度快并且有效。
總結(jié)
??記住,其實(shí)并不知道哪種方法最適合你的任務(wù)與數(shù)據(jù),你可以使用一些啟發(fā)式規(guī)則或經(jīng)驗(yàn)去選擇某一個(gè)較優(yōu)算法。當(dāng)然最好的方法測(cè)試每一種算法,然后選擇最好的方法。最重要的是,從點(diǎn)滴開(kāi)始做起,根據(jù)自己現(xiàn)有的知識(shí),并不斷學(xué)習(xí)去一步步完善。
? ?? 這里有一些我認(rèn)為有價(jià)值的可供參考的相關(guān)資料,讓你進(jìn)一步去認(rèn)識(shí)與研究數(shù)據(jù)不平衡問(wèn)題:
? ???相關(guān)書(shū)籍?
? ? Imbalanced Learning: Foundations, Algorithms, and Applications?
? ???相關(guān)論文?
? ? ? Data Mining for Imbalanced Datasets: An Overview?
? ? ? Learning from Imbalanced Data?
? ? ? Addressing the Curse of Imbalanced Training Sets: One-Sided Selection (PDF)?
? ? ? A Study of the Behavior of Several Methods for Balancing Machine Learning Training Data
Sergey Feldman的回答:
-
設(shè)超大類(lèi)中樣本的個(gè)數(shù)是極小類(lèi)中樣本個(gè)數(shù)的L倍,那么在隨機(jī)梯度下降(SGD,stochastic gradient descent)算法中,每次遇到一個(gè)極小類(lèi)中樣本進(jìn)行訓(xùn)練時(shí),訓(xùn)練L次。
-
將大類(lèi)中樣本劃分到L個(gè)聚類(lèi)中,然后訓(xùn)練L個(gè)分類(lèi)器,每個(gè)分類(lèi)器使用大類(lèi)中的一個(gè)簇與所有的小類(lèi)樣本進(jìn)行訓(xùn)練得到。最后對(duì)這L個(gè)分類(lèi)器采取少數(shù)服從多數(shù)對(duì)未知類(lèi)別數(shù)據(jù)進(jìn)行分類(lèi),如果是連續(xù)值(預(yù)測(cè)),那么采用平均值。
- 設(shè)小類(lèi)中有N個(gè)樣本。將大類(lèi)聚類(lèi)成N個(gè)簇,然后使用每個(gè)簇的中心組成大類(lèi)中的N個(gè)樣本,加上小類(lèi)中所有的樣本進(jìn)行訓(xùn)練。
-
無(wú)論你使用前面的何種方法,都對(duì)某個(gè)或某些類(lèi)進(jìn)行了損害。為了不進(jìn)行損害,那么可以使用全部的訓(xùn)練集采用多種分類(lèi)方法分別建立分類(lèi)器而得到多個(gè)分類(lèi)器,采用投票的方式對(duì)未知類(lèi)別的數(shù)據(jù)進(jìn)行分類(lèi),如果是連續(xù)值(預(yù)測(cè)),那么采用平均值。
-
在最近的ICML論文中,表明增加數(shù)據(jù)量使得已知分布的訓(xùn)練集的誤差增加了,即破壞了原有訓(xùn)練集的分布,從而可以提高分類(lèi)器的性能。這篇論文與類(lèi)別不平衡問(wèn)題不相關(guān),因?yàn)樗[式地使用數(shù)學(xué)方式增加數(shù)據(jù)而使得數(shù)據(jù)集大小不變。但是,我認(rèn)為破壞原有的分布是有益的。
- More details than you need: imho, the most interesting of the corrupting distributions is the blankout distribution, where you just zero out a random subset of features. Why is it interesting? Because you are helping your classifier be sturdier/hardier by giving it variations of your data that have essentially missing features. So it has to learn to classify correctly even in adverse conditions. 一個(gè)相關(guān)的想法是,在神經(jīng)網(wǎng)絡(luò)中,隨機(jī)選擇部分隱藏層單元來(lái)繼續(xù)訓(xùn)練(即,隨機(jī)去掉一部分隱藏層單元,(zeroed-out))。具體見(jiàn)http://web.stanford.edu/~sidaw/cgi-bin/home/lib/exe/fetch.php?media=papers:fastdropout.pdf
Kripa Chettiar的回答:
- 增加新數(shù)據(jù),可以使用SMOTE或SMOTEBoost產(chǎn)生人造數(shù)據(jù)。
- 將大類(lèi)壓縮。壓縮比例需要具體情況具體分析,取決于你所擁有的數(shù)據(jù)。例如,A類(lèi)中有30個(gè)樣本,B類(lèi)中有4000個(gè)樣本,那么你可以將B類(lèi)壓縮成1000(進(jìn)行采樣)。
- 可以結(jié)合1與2
- 對(duì)于那種極小類(lèi)是異常點(diǎn)的分類(lèi)任務(wù),因此分類(lèi)器需要學(xué)習(xí)到大類(lèi)的決策分界面,即分類(lèi)器是一個(gè)單個(gè)類(lèi)分類(lèi)器(One Class Classifier)。Weka中有相關(guān)的庫(kù)。
Dan Levin的回答:
一個(gè)很好的方法去處理非平衡數(shù)據(jù)問(wèn)題,并且在理論上證明了。這個(gè)方法便是由Robert E. Schapire于1990年在Machine Learning提出的”The strength of weak learnability” ,該方法是一個(gè)boosting算法,它遞歸地訓(xùn)練三個(gè)弱學(xué)習(xí)器,然后將這三個(gè)弱學(xué)習(xí)器結(jié)合起形成一個(gè)強(qiáng)的學(xué)習(xí)器。我們可以使用這個(gè)算法的第一步去解決數(shù)據(jù)不平衡問(wèn)題。?
??首先使用原始數(shù)據(jù)集訓(xùn)練第一個(gè)學(xué)習(xí)器L1。?
??然后使用50%在L1學(xué)習(xí)正確和50%學(xué)習(xí)錯(cuò)誤的的那些樣本訓(xùn)練得到學(xué)習(xí)器L2,即從L1中學(xué)習(xí)錯(cuò)誤的樣本集與學(xué)習(xí)正確的樣本集中,循環(huán)一邊采樣一個(gè)。?
??接著,使用L1與L2不一致的那些樣本去訓(xùn)練得到學(xué)習(xí)器L3。?
??最后,使用投票方式作為最后輸出。?
??那么如何使用該算法來(lái)解決類(lèi)別不平衡問(wèn)題呢??
??假設(shè)是一個(gè)二分類(lèi)問(wèn)題,大部分的樣本都是true類(lèi)。讓L1輸出始終為true。使用50%在L1分類(lèi)正確的與50%分類(lèi)錯(cuò)誤的樣本訓(xùn)練得到L2,即從L1中學(xué)習(xí)錯(cuò)誤的樣本集與學(xué)習(xí)正確的樣本集中,循環(huán)一邊采樣一個(gè)。因此,L2的訓(xùn)練樣本是平衡的。L使用L1與L2分類(lèi)不一致的那些樣本訓(xùn)練得到L3,即在L2中分類(lèi)為false的那些樣本。最后,結(jié)合這三個(gè)分類(lèi)器,采用投票的方式來(lái)決定分類(lèi)結(jié)果,因此只有當(dāng)L2與L3都分類(lèi)為false時(shí),最終結(jié)果才為false,否則true。?
??自己已經(jīng)在實(shí)踐中使用過(guò)很多次,并且效果都不錯(cuò)。
Kaushik Kasi的回答:
- 對(duì)小類(lèi)中的樣本進(jìn)行復(fù)制以增加該類(lèi)中的樣本數(shù),但是可能會(huì)增加bias。
- 對(duì)小類(lèi)中的樣本通過(guò)調(diào)整特征值來(lái)人工生成樣本,而使得該類(lèi)中樣本個(gè)數(shù)增多。如在圖像中,對(duì)一幅圖像進(jìn)行扭曲得到另一幅圖像,即改變了原圖像的某些特征值。但是該方法可能會(huì)產(chǎn)生現(xiàn)實(shí)中并存在的樣本。
Muktabh Mayank的回答:
這里有一個(gè)類(lèi)似SVM的方法來(lái)處理不平衡問(wèn)題。具體參見(jiàn)這里。??
總結(jié)
- 上一篇: FocalLoss的Caffe复现版
- 下一篇: 正负样本不平衡处理方法总结