数据不平衡分类问题
引言
不平衡分類問題是指訓(xùn)練樣本數(shù)量在類間分布不平衡的模式分類問題。在實際應(yīng)用中,不平衡問題很常見。有些問題其原始數(shù)據(jù)的分布就存在不平衡,如通過衛(wèi)星雷達圖片檢測海面石油油污、監(jiān)測信用卡非法交易、發(fā)掘基因序列中編碼信息以及醫(yī)學(xué)數(shù)據(jù)分類等。
所謂的數(shù)據(jù)不平衡是指:數(shù)據(jù)集樣本類別極不均衡。不平衡數(shù)據(jù)的學(xué)習(xí)即需要在如此分布不均勻的數(shù)據(jù)集中學(xué)習(xí)到有用的信息。
不平衡分類問題特征及其存在的問題
不平衡分類問題具有一系列傳統(tǒng)模式分類方法沒有考慮到的特征,從而引發(fā)了一系列的傳統(tǒng)模式分類難以解決的問題。
數(shù)據(jù)稀缺問題
樣本分布的不平衡容易導(dǎo)致稀有類樣本的稀缺,具體地說,稀缺包括絕對稀缺 和 相對稀缺。
- 絕對稀缺是指稀有類訓(xùn)練樣本數(shù)量絕對過少,導(dǎo)致該類信息無法通過訓(xùn)練樣本充分表示。
絕對數(shù)據(jù)稀缺類的分類錯誤率要比一般類高出許多。此外,當某類數(shù)據(jù)過于稀缺時,容易在特征空間中形成小的數(shù)據(jù)區(qū)域,從而引發(fā)小區(qū)塊(small disjuncts )問題。由于小區(qū)塊與噪聲數(shù)據(jù)難以區(qū)分,在小區(qū)塊存在很高的分類錯誤率。很多分類器為了防止過學(xué)習(xí)會進行統(tǒng)計顯著性(statistical significance)檢測,如在決策樹中,只有覆蓋足夠多樣本的決策規(guī)則和關(guān)聯(lián)規(guī)則才能被保留下來。而小區(qū)塊的數(shù)據(jù)經(jīng)常無法順利通這類顯著性檢測,另一方面來說,如果降低檢測的閾值,又無法有效地去除噪聲。
- 相對稀缺是指稀有類樣本本身數(shù)量并不過少,但相對大類,占有的比例過小。總樣本數(shù)量足夠多時,相對稀缺并不一定引起分類器性能下降。相反,絕對稀缺導(dǎo)致的稀有樣本分布不集中且數(shù)量過少才容易引起分類器性能下降。
綜上可得,對于相對稀有樣本能通過增加總樣本數(shù)量來減少數(shù)據(jù)不平衡對分類器性能的影響,而絕對稀缺則難以解決。
噪聲問題
噪聲數(shù)據(jù)的存在不可避免,并在一定程度上影響到分類器性能。但是,對不平衡分類問題,噪聲數(shù)據(jù)對稀有類將產(chǎn)生更大的影響。稀有類的抗噪能力較弱,并且分類器難以區(qū)分稀有類樣本和噪聲數(shù)據(jù)。
對于不平衡數(shù)據(jù)的噪聲問題存在很大的困難,噪聲會影響分類器的性能,但是由于噪聲和稀有類難以區(qū)分,很難在保留稀有類的情況下去除噪聲。
決策面偏移問題
傳統(tǒng)的模式分類方法,大都建立在訓(xùn)練樣本數(shù)量均衡的前提下。當用于解決不平衡分類問題時,它們的分類性能往往有不同程度的下降。
基于特征空間決策面進行類別劃分的分類器,如支持向量機,目標在于尋找一個最優(yōu)的決策面。為了降低噪聲數(shù)據(jù)的影響和防止過學(xué)習(xí)的產(chǎn)生,最優(yōu)決策面必須兼顧訓(xùn)練分類準確率和決策面的復(fù)雜度,即采用結(jié)構(gòu)風險最小化規(guī)則。但是當數(shù)據(jù)不平衡時,則支持向量的個數(shù)也不平衡。在結(jié)構(gòu)最小化原則下,支持向量機會忽略稀有類少量支持向量對結(jié)構(gòu)風險的影響而擴大決策邊界,最終導(dǎo)致訓(xùn)練的實際超平面與最優(yōu)超平面不一致。
基于概率估計的分類器,如貝葉斯分類器,分類準確率依賴于概率分布的準確估計,當稀有類樣本過少時,概率估計準確率將遠小于大類,稀有類的識別率也因此下降。
基于規(guī)則的分類器,如決策樹和關(guān)聯(lián)規(guī)則分類,需要對規(guī)則進行篩選。其中支持度和可信度是規(guī)則篩選的重要指標,但是當數(shù)據(jù)不平衡時,基于上述指標的篩選變得困難且不合理。
評價標準問題
分類器評測指標的科學(xué)性直接影響著分類器的性能,因為分類器訓(xùn)練的目標是實現(xiàn)最高的評測指標。傳統(tǒng)模式分類的評價標準一般是準確率,但是以準確率為評價準則的分類器傾向于降低稀有類的分類效果。且準確率不重視稀有類對分類性能評測的影響。
不平衡分類問題的解決策略
解決不平衡分類問題的策略可以分為兩大類。一類是從訓(xùn)練集入手,通過改變訓(xùn)練集樣本分布,降低不平衡程度。另一類是從學(xué)習(xí)算法入手,根據(jù)算法在解決不平衡問題時的缺陷,適當?shù)匦薷乃惴ㄊ怪m應(yīng)不平衡分類問題。
訓(xùn)練集解決不平衡分類問題
重采樣方法
重采樣方法是上采樣和下采樣使不平衡的樣本分布變得比較平衡,從而提高分類器對稀有類的識別率
上采樣(up-sampling):通過增加稀有類訓(xùn)練樣本數(shù)的方法,降低不平衡程度。
- 最原始的是復(fù)制稀有類樣本,但是易導(dǎo)致過學(xué)習(xí),且對提高稀有類識別率影響不大。
- 基于啟發(fā)式的上采樣方法,有選擇地復(fù)制稀有類樣本,或者生成新的稀有類樣本,如SMOTE。
下采樣(down-sampling):通過舍棄部分大類樣本的方法,降低不平衡程度。
雖然重采樣在一些數(shù)據(jù)集上取得了不錯的效果,但是這類方法也存在一些缺陷。上采樣方法不增加任何新的數(shù)據(jù),只是重復(fù)或者增加人工生成的稀有類樣本,這樣增加了訓(xùn)練時間,甚至由于這些重復(fù)或是周圍生成的新的稀有類樣本,使分類器過分注重這些樣本,導(dǎo)致過學(xué)習(xí)。上采樣不能從本質(zhì)上解決稀有類樣本的缺失和數(shù)據(jù)表示的不充分性。而下采樣在去除大類樣本時,容易去除重要的樣本信息,雖然有些啟發(fā)式下采樣方法知識去除冗余樣本和噪聲樣本,但多數(shù)情況下這類樣本只是小部分,因此下采樣方法能夠調(diào)整的不平衡度相當有限。
訓(xùn)練集劃分方法
對訓(xùn)練數(shù)據(jù)集進行劃分,是另一種有效的訓(xùn)練集平衡方法。通過訓(xùn)練集劃分得到的子分類器,利用分類器集成的方法獲得了良好的效果。具體如下圖:
首先根據(jù)代價敏感學(xué)習(xí)的需要,學(xué)習(xí)一個合理的類別樣本分布比例。然后將大類樣本隨機劃分成一系列不相交子集。這些子集的大小由稀有類樣本集的數(shù)量和預(yù)先學(xué)習(xí)的樣本分布比例決定。接下來分別將這些不相交子集跟稀有類樣本結(jié)合,組成一系列平衡的分類子問題,單獨訓(xùn)練成子分類器。最后通過元學(xué)習(xí)(meta learning)將這些子分類器的輸出進一步學(xué)習(xí)成組合分類器。
該方法子問題采用SVM為子分類器,得到的分類器性能優(yōu)于上、下采樣方法。后有人提出最小最大模塊化神經(jīng)網(wǎng)絡(luò)模型,利用最小最大化集成規(guī)則,有效地將子分類器組合,使組合分類器容易地實現(xiàn)并列學(xué)習(xí)和增量學(xué)習(xí)。再后面有人將上述模型推廣到支持向量機并提出了“部分對部分”(part vs part)任務(wù)分解策略。“部分對部分”任務(wù)分解策略可對不平衡兩類子問題作進一步分解。這種分解策略可以自由地控制每個子問題的規(guī)模和平衡度,并且可以根據(jù)先驗知識和訓(xùn)練集樣本的分布特征,制定有效的分解規(guī)則。實驗表明,該方法比代價敏感學(xué)習(xí)和重采樣方法能更好地解決不平衡問題。
學(xué)習(xí)算法解決不平衡分類問題
分類器集成
訓(xùn)練集重采樣后用多種學(xué)習(xí)方法分別訓(xùn)練,然后將得到的分類器采用多數(shù)投票方法給出預(yù)測類別。
Estabrook等人[26]通過計算發(fā)現(xiàn),根據(jù)訓(xùn)練集的自然分布得到的分類器不一定具有最好的一般化能力.他們提出通過對原不平衡問題進行重采樣,從而構(gòu)建多個平衡度不同的訓(xùn)練集,訓(xùn)練后采用分類器挑選和偏向正類的原則將各個分類器綜合。該方法比單獨應(yīng)用上采樣和下采樣方法獲得了更好的準確率和ROC曲線。
代價敏感學(xué)習(xí)
代價敏感學(xué)習(xí)賦予各個類別不同的錯分代價,它能很好地解決不平衡分類問題。在算法層面上解決不平衡數(shù)據(jù)學(xué)習(xí)的方法主要是基于代價敏感學(xué)習(xí)算法(Cost-Sensitive Learning),代價敏感學(xué)習(xí)方法的核心要素是代價矩陣,我們注意到在實際的應(yīng)用中不同類型的誤分類情況導(dǎo)致的代價是不一樣的。
基于以上代價矩陣的分析,代價敏感學(xué)習(xí)方法主要有以下三種實現(xiàn)方式,分別是:
- 基于學(xué)習(xí)模型,著眼于對某一具體學(xué)習(xí)方法的改造,使之能適應(yīng)不平衡數(shù)據(jù)下的學(xué)習(xí),研究者們針對不同的學(xué)習(xí)模型如感知機,支持向量機,決策樹,神經(jīng)網(wǎng)絡(luò)等分別提出了其代價敏感的版本。以代價敏感的決策樹為例,可從三個方面對其進行改進以適應(yīng)不平衡數(shù)據(jù)的學(xué)習(xí),這三個方面分別是決策閾值的選擇方面、分裂標準的選擇方面、剪枝方面,這三個方面中都可以將代價矩陣引入,具體實現(xiàn)算法可參考參考文獻中的相關(guān)文章。
基于貝葉斯風險理論,把代價敏感學(xué)習(xí)看成是分類結(jié)果的一種后處理,按照傳統(tǒng)方法學(xué)習(xí)到一個模型,以實現(xiàn)損失最小為目標對結(jié)果進行調(diào)整,優(yōu)化公式如下所示。此方法的優(yōu)點在于它可以不依賴所用具體的分類器,但是缺點也很明顯它要求分類器輸出值為概率。
基于預(yù)處理,將代價用于權(quán)重的調(diào)整,使得分類器滿足代價敏感的特性,下面講解一種基于Adaboost的權(quán)重更新策略。
特征選擇方法
特征選擇方法對于不平衡分類問題同樣具有重要意義。樣本數(shù)量分布很不平衡時,特征的分布同樣會不平衡。尤其在文本分類問題中,在大類中經(jīng)常出現(xiàn)的特征,也許在稀有類中根本不出現(xiàn)。因此,根據(jù)不平衡分類問題的特點,選取最具有區(qū)分能力的特征,有利于提高稀有類的識別率。
通過采用特征選擇來解決不平衡分類問題主要集中于自然語言處理領(lǐng)域。
參考:
總結(jié)
- 上一篇: Liveness 探测 - 每天5分钟玩
- 下一篇: 富人为什么会富,穷人为什么穷?看完你就懂