直播 | 复旦大学许燚:少量标注样本场景下基于数据编程的半监督分类
「AI Drive」是由 PaperWeekly 和 biendata 共同發(fā)起的學術(shù)直播間,旨在幫助更多的青年學者宣傳其最新科研成果。我們一直認為,單向地輸出知識并不是一個最好的方式,而有效地反饋和交流可能會讓知識的傳播更加有意義,從而產(chǎn)生更大的價值。
本期 AI Drive,我們邀請到復旦大學博士生許燚,為大家在線解讀其發(fā)表在 NeurIPS 2021 的最新研究成果:DP-SSL: Towards Robust Semi-supervised Learning with A Few Labeled Samples。對本期主題感興趣的小伙伴,11 月 30?日(本周二)晚 7 點,我們準時相約 PaperWeekly 直播間。
直播信息
標注數(shù)據(jù)的稀缺性是深度學習的一個關(guān)鍵障礙。半監(jiān)督學習則是以給未標注數(shù)據(jù)生成偽標簽的方式為這一問題提供了一種有效的解法。然而,當標注數(shù)據(jù)的量較小時,比如每個類只有幾個樣本時,由于生成的偽標簽的質(zhì)量不可靠,半監(jiān)督學習的表現(xiàn)不佳并且效果不穩(wěn)定。
在本文中,我們提出了一種基于數(shù)據(jù)編程 (Data Programming) 框架來為未標注數(shù)據(jù)生成概率標簽的半監(jiān)督分類方法。與現(xiàn)有的數(shù)據(jù)編程方法需要人為設(shè)計標記函數(shù) (Labeling Function)不同的是,我們采用了一套基于多選擇學習 (Multiple-choice Learning) 的半監(jiān)督策略來自動生成標記函數(shù)。考慮到標記函數(shù)中產(chǎn)生的噪聲標簽,我們設(shè)計了一個標記模型 (Label Model) 來解決其中的沖突與重疊,從而為未標注的樣本提供概率標簽用于后續(xù)的訓練。
在四個基準數(shù)據(jù)集上的大量實驗結(jié)果表明,我們的方法可以為未標注的數(shù)據(jù)提供可靠的概率標簽,而以此為基礎(chǔ)訓練的模型在測試集上也具備了比現(xiàn)有半監(jiān)督分類方法更好的性能。尤其是在少量標注樣本可用時,例如在 CIFAR-10 上只有 40 個標注樣本時(每個類別 4 個),我們的方法在未標注的數(shù)據(jù)上達到了 93.82% 的標注準確率,在測試集上達到了 93.46% 的分類準確率,高于現(xiàn)有 SOTA 結(jié)果。
論文標題:
DP-SSL: Towards Robust Semi-supervised Learning with A Few Labeled Samples
論文鏈接:
https://arxiv.org/abs/2110.13740
本次分享的具體內(nèi)容有:?
半監(jiān)督分類在樣本較少時面臨的問題
半監(jiān)督分類以及數(shù)據(jù)編程的相關(guān)工作
基于數(shù)據(jù)編程的半監(jiān)督分類的基本框架和方法
多個數(shù)據(jù)集的實驗結(jié)果及偽標簽質(zhì)量分析方法
總結(jié)與展望
嘉賓介紹
?許燚?/ 復旦大學博士生?
許燚,復旦大學博士生在讀,導師為周水庚教授。主要研究方向為視頻理解,半監(jiān)督以及弱監(jiān)督學習,在 NeurIPS, CVPR, ICCV, AAAI, MM, EMNLP 上發(fā)表過相關(guān)論文。
直播地址?& 交流群
本次直播將在 PaperWeekly 視頻號和 B 站直播間進行,掃描下方海報二維碼或點擊閱讀原文即可免費觀看。線上分享結(jié)束后,嘉賓還將在直播交流群內(nèi)實時 QA,在 PaperWeekly 微信公眾號后臺回復「AI Drive」,即可獲取入群通道。
視頻號直播間:
掃描下方二維碼關(guān)注 PaperWeekly 視頻號,第一時間獲取開播提醒。
B 站直播間:
https://live.bilibili.com/14884511
合作伙伴
🔍
現(xiàn)在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關(guān)注」訂閱我們的專欄吧
·
總結(jié)
以上是生活随笔為你收集整理的直播 | 复旦大学许燚:少量标注样本场景下基于数据编程的半监督分类的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 微软、UIUC韩家炜组联合出品:少样本N
- 下一篇: ChildTuning:试试把Dropo