[论文学习]DIVIDEMIX:带噪声标签的半监督学习LEARNING WITH NOISY LABELS AS SEMI-SUPERVISED LEARNING
??本文研究含噪聲標簽數(shù)據(jù)的訓(xùn)練,是目前該領(lǐng)域的SOTA。主要方法是:首先使用高斯混合模型,根據(jù)訓(xùn)練集每樣本的損失函數(shù)值對樣本進行分類,分為干凈樣本和噪聲樣本,把噪聲樣本作為無標簽樣本;然后使用半監(jiān)督學習常用的協(xié)同訓(xùn)練法,即同時訓(xùn)練兩個分歧網(wǎng)絡(luò),互相使用另一個網(wǎng)絡(luò)的數(shù)據(jù)集劃分結(jié)果工作,目的是避免被錯分的樣本在單一網(wǎng)絡(luò)中形成“偏差確認”。該論文收錄于ICLR2020,作者Junnan Li,工作單位salesforce。
論文地址:https://arxiv.org/abs/2002.07394
開源代碼:https://github.com/LiJunnan1992/DivideMix
一、主要原理
??主要原理如上圖,同時訓(xùn)練兩個同結(jié)構(gòu)但不同參數(shù)的網(wǎng)絡(luò)A和B。
??第一步,在每epoch,使用混合高斯模型GMM對每個樣本的損失值進行分類。這是因為神經(jīng)網(wǎng)絡(luò)對于干凈標簽和噪聲標簽會表現(xiàn)出不同的損失值,噪聲標簽的損失值更大,因此對損失值劃定一個閾值即可區(qū)分干凈標簽和噪聲標簽,但是這個閾值并不能事前確定,需要使用某種聚類算法實現(xiàn)自動的分類,作者認為干凈標簽和噪聲標簽的損失值都應(yīng)是服從各自不同的高斯分布,所以使用含2個組分的高斯混合模型即可分開。
??這里復(fù)習一下GMM。GMM是一種聚類算法,用來對含有多個高斯分布的數(shù)據(jù)進行分類,一般使用期望最大(EM)算法來擬合其中每個高斯分布的參數(shù),然后得到分類閾值進行分類。比如,男生的身高和女生的身高都分別服從一個高斯分布,通過計算后可以得到一個閾值1.6米,可以認為1.6米以下的都是女生,1.6米以上的都是男生??梢妼τ诰当容^接近的高斯分布,GMM分類效果并不好。
為了更好的進行GMM分類,文中使用了一些tricks,如figure2所示,進行一定的預(yù)熱,就是先訓(xùn)練10個epoch左右,加入了一個罰函數(shù)(使用負熵函數(shù)),可以發(fā)現(xiàn)干凈標簽和噪聲標簽的損失差別更明顯一些;再經(jīng)過DivideMix的多輪循環(huán),這個差別會更加明顯。
??第二步,在每mini-batch,使用改進的MixMatch法訓(xùn)練,即兩個網(wǎng)絡(luò)的輸出結(jié)果混合后再分別輸入給兩個網(wǎng)絡(luò)繼續(xù)訓(xùn)練。
二、優(yōu)缺點分析
1.優(yōu)點
??根據(jù)作者的試驗數(shù)據(jù),本方法效果很好,比之前的方法有很大提升,噪聲50%時比無噪聲時精度沒有太多下降,噪聲80%時仍有相當高的精度。
2.缺點
??根據(jù)我的試驗,本方法對于噪聲含量10%以下的低噪聲情況效果反而下降很厲害。這是因為對于低噪聲含量情況,兩個類別的損失分布混在了一起,GMM無法有效識別出噪聲樣本,所以會把很多干凈樣本劃分為噪聲樣本。也許調(diào)整一下GMM的參數(shù)會好一些,我沒有進一步試驗。
總結(jié)
??我學習噪聲標簽問題的主要目的是基于之前做很多數(shù)據(jù)競賽題時發(fā)現(xiàn)了不少人工標注錯誤問題,希望能夠找到解決這些問題的好方法,然而看了好幾篇論文之后并沒有找到直接好用的方法,頂多是論文中的思想可供借鑒一下。本文算是標簽噪聲領(lǐng)域目前效果最好的,但是本文僅在噪聲較高情況下才有用,對于噪聲含量不超過20%的情況并不適用。
總結(jié)
以上是生活随笔為你收集整理的[论文学习]DIVIDEMIX:带噪声标签的半监督学习LEARNING WITH NOISY LABELS AS SEMI-SUPERVISED LEARNING的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: LeNet试验(五)观察“彩票假说”现象
- 下一篇: 【论文学习】mixup系列(mixup、