利用一个样本估计类别数据分布,9行代码提高少样本学习泛化能力
??作者|楊朔
學(xué)校|悉尼科技大學(xué)博士生
研究方向|少樣本學(xué)習(xí),噪音標(biāo)簽學(xué)習(xí)
介紹一篇我們剛剛發(fā)表在 ICLR 2021 Oral 上的一篇少樣本學(xué)習(xí)工作,簡單有效。
論文標(biāo)題:
Free Lunch for Few-shot Learning: Distribution Calibration
論文鏈接:
https://openreview.net/forum?id=JWOiYxMG92s?
代碼鏈接:
https://github.com/ShuoYang-1998/ICLR2021-Oral_Distribution_Calibration
簡介
從極少量樣本中學(xué)習(xí)到泛化性能良好的模型是很困難的,因?yàn)闃O少的樣本形成的數(shù)據(jù)分布往往與真實(shí)數(shù)據(jù)分布相差較大,在偏斜的數(shù)據(jù)分布上訓(xùn)練模型會導(dǎo)致嚴(yán)重的過擬合現(xiàn)象并嚴(yán)重破壞模型的泛化能力(見圖1)。
在本文中我們嘗試從數(shù)據(jù)分布估計(jì)的角度去緩解少樣本學(xué)習(xí)中的過擬合現(xiàn)象。我們嘗試?yán)靡粋€(gè)樣本去估計(jì)該類別的整體數(shù)據(jù)分布,如果該分布估計(jì)足夠準(zhǔn)確,也許可以彌合少樣本學(xué)習(xí)和傳統(tǒng)多樣本學(xué)習(xí)的差距。
方法
直接從一個(gè)樣本中估計(jì)整體數(shù)據(jù)分布是非常困難的,需要很強(qiáng)的先驗(yàn)去約束分布估計(jì)的過程。我們觀察到如果假設(shè)每一個(gè)類別的特征都服從高斯分布,那么相似類別的分布統(tǒng)計(jì)量相似度非常高,如表1。
從直觀的角度理解,一個(gè)類別的 mean 代表該類別的 general appearance,variance 代表該類別某屬性的變化范圍(顏色、形狀、姿勢等)。而相似的類別(如貓和老虎)具有相似的整體外觀和相似的屬性變化范圍。
受此啟發(fā),我們提出了通過遷移基類(base class)的分布統(tǒng)計(jì)量的方式對少樣本類別的數(shù)據(jù)分布做‘矯正’(calibration)。具體來說,我們首先為每一個(gè) base class i 計(jì)算一個(gè) mean 和 covariance:
計(jì)算好的 和 儲存起來當(dāng)作 base class 分布先驗(yàn)。然后在進(jìn)行少樣本分類時(shí)我們利用 base class 的分布先驗(yàn)去修正少樣本類別的數(shù)據(jù)分布:
得到修正后的少樣本類別的分布 和 后,我們便可以從修正后的分布中直接采樣:
然后利用采樣得到的數(shù)據(jù)和 support set 共同訓(xùn)練分類器:
至此,該算法結(jié)束。流程如圖:
實(shí)驗(yàn)
我們的算法無需任何可訓(xùn)練參數(shù),可以建立在任何已有的特征提取器和分類器之上,并極大的提高模型的泛化能力。代碼已開源,核心代碼只有 9 行(evaluate_DC.py 中的第 10-19 行)。我們的方法搭配最簡單的線性分類器便可以達(dá)到非常高的 1-shot 分類性能。實(shí)驗(yàn)結(jié)果如圖:
我們分布估計(jì)的可視化如圖:
總結(jié)
在本工作中我們思考了少樣本學(xué)習(xí)和多樣本學(xué)習(xí)的核心差距,并提出通過分布矯正(估計(jì))的方式彌合這種差距。在該工作的后續(xù)期刊拓展版本中我們從generalization error bound的角度為‘基于數(shù)據(jù)分布估計(jì)的少樣本學(xué)習(xí)’這一類方法建立了理論框架,并證明了當(dāng)數(shù)據(jù)分布足夠準(zhǔn)確時(shí),少樣本學(xué)習(xí)和多樣本學(xué)習(xí)的泛化誤差等價(jià)。
更多閱讀
#投 稿?通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢?答案就是:你不認(rèn)識的人。
總有一些你不認(rèn)識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞,迸發(fā)出更多的可能性。?
PaperWeekly 鼓勵(lì)高校實(shí)驗(yàn)室或個(gè)人,在我們的平臺上分享各類優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學(xué)習(xí)心得或技術(shù)干貨。我們的目的只有一個(gè),讓知識真正流動(dòng)起來。
?????來稿標(biāo)準(zhǔn):
? 稿件確系個(gè)人原創(chuàng)作品,來稿需注明作者個(gè)人信息(姓名+學(xué)校/工作單位+學(xué)歷/職位+研究方向)?
? 如果文章并非首發(fā),請?jiān)谕陡鍟r(shí)提醒并附上所有已發(fā)布鏈接?
? PaperWeekly 默認(rèn)每篇文章都是首發(fā),均會添加“原創(chuàng)”標(biāo)志
?????投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請單獨(dú)在附件中發(fā)送?
? 請留下即時(shí)聯(lián)系方式(微信或手機(jī)),以便我們在編輯發(fā)布時(shí)和作者溝通
????
現(xiàn)在,在「知乎」也能找到我們了
進(jìn)入知乎首頁搜索「PaperWeekly」
點(diǎn)擊「關(guān)注」訂閱我們的專欄吧
關(guān)于PaperWeekly
PaperWeekly 是一個(gè)推薦、解讀、討論、報(bào)道人工智能前沿論文成果的學(xué)術(shù)平臺。如果你研究或從事 AI 領(lǐng)域,歡迎在公眾號后臺點(diǎn)擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
總結(jié)
以上是生活随笔為你收集整理的利用一个样本估计类别数据分布,9行代码提高少样本学习泛化能力的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 沙漠之鹰的坦克怎么画
- 下一篇: 从太湖服务区到蒋介石的故居多少公里