测试集没标签,可以拿来测模型吗?
文:維建
編:白鹡鸰
背景
正常情況下,我們可以用一個(gè)帶標(biāo)簽的數(shù)據(jù)集來(lái)測(cè)試分類器的表現(xiàn)(稱之為測(cè)試集)。然而,現(xiàn)實(shí)中,因?yàn)榉N種因素的制約(標(biāo)注成本高、標(biāo)注難度大等 Google:窮人不配搞機(jī)器學(xué)習(xí)),很多場(chǎng)景下難以求得一個(gè)規(guī)模大、標(biāo)注正確率高、采樣無(wú)偏的測(cè)試集。而采用人工評(píng)估的方式,往往耗時(shí)耗力,且方差極大,結(jié)果對(duì)機(jī)器學(xué)習(xí)模型的迭代速度產(chǎn)生了很大的制約。
由此,本文提出了 自動(dòng)模型評(píng)估(AutoEval) ?——目標(biāo)是在給定了有標(biāo)簽的訓(xùn)練集的前提下,估計(jì)出分類器在 無(wú)標(biāo)簽 的測(cè)試數(shù)據(jù)集上的準(zhǔn)確性。
乍一聽(tīng)似乎腦洞很大,測(cè)試集沒(méi)標(biāo)簽還能叫測(cè)試集嗎?沒(méi)標(biāo)簽的情況下還能算出準(zhǔn)確率,那豈不是可以瘋狂刷爆(過(guò)擬合)那些給了樣本卻沒(méi)給標(biāo)簽的榜單了?
顯然,自動(dòng)模型評(píng)估這一任務(wù)價(jià)值很大,但難度也大。今天想和大家分享下我們近期在這一任務(wù)上提出的解決方案——衡量數(shù)據(jù)分布的差異。方法的出發(fā)點(diǎn)是:測(cè)試集和訓(xùn)練集數(shù)據(jù)分布差異越大,分類器在測(cè)試集上的準(zhǔn)確率就會(huì)越低。我們采用了回歸模型來(lái)估計(jì)分類器的性能。給定一個(gè)無(wú)標(biāo)簽的測(cè)試集,我們可以算出其和訓(xùn)練集的特征分布差異。將該差異輸入給回歸器,我們會(huì)得到分類器準(zhǔn)確率的預(yù)測(cè)值。我們發(fā)現(xiàn)回歸器可以較為準(zhǔn)確地預(yù)測(cè)分類器在不同測(cè)試集合上的表現(xiàn),進(jìn)而幫助我們了解分類器在不同測(cè)試場(chǎng)景下的性能。
論文題目:
Are Labels Necessary for Classifier Accuracy Evaluation?
論文鏈接:
https://arxiv.org/abs/2011.03395
Arxiv訪問(wèn)慢的小伙伴也可以在【夕小瑤的賣萌屋】訂閱號(hào)后臺(tái)回復(fù)關(guān)鍵詞【1215】下載論文PDF~
方法
出發(fā)點(diǎn)
機(jī)器學(xué)習(xí)領(lǐng)域有一個(gè)重要的研究任務(wù)叫“域適應(yīng)(domain adaption)”,它的核心研究目標(biāo)是讓模型在來(lái)源于不同數(shù)據(jù)分布的測(cè)試樣本上有較好的性能表現(xiàn) [1]。該任務(wù)有一個(gè)很重要的出發(fā)點(diǎn),就是 數(shù)據(jù)分布的偏移會(huì)影響分類器的準(zhǔn)確性 。因此我們可以從數(shù)據(jù)分布差異出發(fā),來(lái)推測(cè)模型的性能表現(xiàn)。具體來(lái)說(shuō),我們研究了分類器在不同數(shù)據(jù)分布下的準(zhǔn)確率,發(fā)現(xiàn)兩者(數(shù)據(jù)分布和準(zhǔn)確率)在統(tǒng)計(jì)上是負(fù)相關(guān)的。下面將介紹如何構(gòu)建一個(gè)元數(shù)據(jù)集合來(lái)得到這一負(fù)相關(guān)觀測(cè)結(jié)論,并展示具體的相關(guān)性結(jié)果。
元數(shù)據(jù)集
為了觀測(cè)一個(gè)分類器在不同數(shù)據(jù)分布場(chǎng)景下的表現(xiàn),我們需要很多各不相同的測(cè)試數(shù)據(jù)集合。為此,我們構(gòu)造一個(gè) 元數(shù)據(jù)集合 (meta dataset, 多個(gè)數(shù)據(jù)集組成的數(shù)據(jù)集)。元數(shù)據(jù)集包含很多樣本數(shù)據(jù)集(sample set),每一個(gè)樣本集具備不同的數(shù)據(jù)分布且有很多的圖像。因?yàn)楹茈y收集大量樣本集(例如1000個(gè)),我們采用旋轉(zhuǎn)、調(diào)整對(duì)比度、平移、背景更改等方法生成不同的樣本集。
如圖1,給定一個(gè)種子集,我們可以變幻出15個(gè)各不相同的樣本集。值得注意的是,每一個(gè)樣本集和種子集(seed set)共享相同的前景對(duì)象,即圖像的語(yǔ)義目標(biāo)沒(méi)有被修改,依然具備原來(lái)的標(biāo)簽。也就是說(shuō),每一個(gè)生成的樣本集合都是帶圖像標(biāo)記的。 在實(shí)驗(yàn)中,我們通過(guò)圖像變換的方式得到了500多個(gè)樣本集。
圖1 通過(guò)圖像變換生成的特征分布不同的樣本集
相關(guān)性分析
給定一個(gè)分類器(在訓(xùn)練集上訓(xùn)練)和一個(gè)元數(shù)據(jù)集(基于種子集生成),我們可以通過(guò)Frechet distance (FD) 衡量訓(xùn)練集和每一個(gè)樣本集的數(shù)據(jù)分布差異 [2];又因?yàn)闃颖緮?shù)據(jù)集都是有標(biāo)簽的,可以得到分類器在各個(gè)樣本數(shù)據(jù)集上的準(zhǔn)確率。
Frechet distance衡量?jī)蓚€(gè)數(shù)據(jù)集合分布差異。其基于兩個(gè)數(shù)據(jù)集合的一階和二階統(tǒng)計(jì)量來(lái)計(jì)算差異。
圖2是FD與分類器準(zhǔn)確率關(guān)系的可視化結(jié)果。值得注意的是,圖中的每一個(gè)點(diǎn)代表一個(gè)樣本集。我們觀察到分類器準(zhǔn)確性與分布偏移之間存在很強(qiáng)的負(fù)線性相關(guān)性。
圖2 分類器準(zhǔn)確率和分布偏移的線性擬合結(jié)果
回歸模型
有了上述相關(guān)性,我們可以根據(jù)測(cè)試集與訓(xùn)練集之間的分布偏移來(lái)預(yù)測(cè)分類器的準(zhǔn)確性。在本文中,我們提出了兩種回歸方案:
線性回歸:對(duì)于來(lái)自元數(shù)據(jù)集的每個(gè)樣本集,我們計(jì)算分類器準(zhǔn)確性及其在訓(xùn)練集之間的分布偏移。根據(jù)結(jié)果擬合一個(gè)簡(jiǎn)單的線性回歸。
網(wǎng)絡(luò)回歸:直接從樣本集回歸分類器的性能。具體來(lái)說(shuō),一個(gè)數(shù)據(jù)集合對(duì)應(yīng)一個(gè)性能,直接學(xué)習(xí)一個(gè)映射網(wǎng)絡(luò)。網(wǎng)絡(luò)的輸入是一個(gè)數(shù)據(jù)集合的統(tǒng)計(jì)特征,輸出是該數(shù)據(jù)集上的統(tǒng)計(jì)特征,此處我們選取了與分布相關(guān)的一階統(tǒng)計(jì)量(均值)和二階統(tǒng)計(jì)量(協(xié)方差)。
自問(wèn):為什么能用一個(gè)特征代表一個(gè)數(shù)據(jù)集合?
自答:根據(jù)相關(guān)性分析知道數(shù)據(jù)分布差異和準(zhǔn)確率有強(qiáng)相關(guān),因此可以用與數(shù)據(jù)分布差異有關(guān)的統(tǒng)計(jì)特征來(lái)刻畫(huà)一個(gè)數(shù)據(jù)集合。
然后建立一個(gè)小型的全連接網(wǎng)絡(luò)以學(xué)習(xí)映射功能:該網(wǎng)絡(luò)使用樣本集的均值矢量和協(xié)方差矩陣作為輸入并輸出分類器的準(zhǔn)確性。
兩個(gè)回歸方法很直接很簡(jiǎn)單,因?yàn)樗鼈兌际腔诮y(tǒng)計(jì)上的相關(guān)性分析來(lái)提出的。兩者有很直接相關(guān)的統(tǒng)計(jì)特性,因此簡(jiǎn)單有效,不需要太多復(fù)雜的東西。
實(shí)驗(yàn)結(jié)果
實(shí)驗(yàn)方面,我們首先基于COCO的訓(xùn)練集上訓(xùn)練得到一個(gè)分類器,而后基于COCO交叉驗(yàn)證集合生成一個(gè)元數(shù)據(jù)集合,就可以訓(xùn)練出兩個(gè)回歸模型。我們將回歸模型運(yùn)用到其他的三個(gè)真實(shí)世界測(cè)試集(Caltech,Pascal和ImageNet),來(lái)估計(jì)COCO分類器在這三個(gè)無(wú)標(biāo)簽數(shù)據(jù)集合上的表現(xiàn)/準(zhǔn)確率。由于自動(dòng)模型評(píng)估問(wèn)題還沒(méi)有相應(yīng)的工作來(lái)進(jìn)行探究,因此對(duì)比的方法較少。
實(shí)驗(yàn)結(jié)果表明,我們的方法做出了比較不錯(cuò)且合理預(yù)測(cè)(RMSE小于4%)。這是因?yàn)樵獢?shù)據(jù)集包含許多不同的樣本集,因此回歸方法可以“看到”各種數(shù)據(jù)分布情況,知道分類器在不同測(cè)試情形下的準(zhǔn)確率表現(xiàn)。論文中,我們還詳細(xì)驗(yàn)證了回歸模型的魯棒性并且討論了如何構(gòu)建一個(gè)較好的元數(shù)據(jù)集,感興趣的朋友們來(lái)看呀~
圖3 預(yù)測(cè)器的效果,第一行是模型實(shí)際準(zhǔn)確率,最后兩行是通過(guò)我們方法預(yù)測(cè)的模型準(zhǔn)確率,可以看出網(wǎng)絡(luò)回歸對(duì)模型準(zhǔn)確率的預(yù)測(cè)已經(jīng)很接近真相了
總結(jié)
越來(lái)越多的工作都在關(guān)注模型在實(shí)際測(cè)試場(chǎng)景下對(duì)噪聲的魯棒性、抗對(duì)抗樣本能力以及對(duì)異常樣本的處理能力 [5]。自動(dòng)模型評(píng)估直接預(yù)測(cè)分類器在無(wú)標(biāo)簽測(cè)試場(chǎng)景下的性能,進(jìn)而直觀地幫助我們理解分類器的可靠性與泛化性。希望能夠看到自動(dòng)模型評(píng)估和現(xiàn)有工作的結(jié)合。此外,如何將自動(dòng)模型評(píng)估問(wèn)題推廣到其他視覺(jué)任務(wù)(如目標(biāo)檢測(cè)與圖像分割)和自然語(yǔ)言處理任務(wù)也是一個(gè)比較有趣的研究方向。
后臺(tái)回復(fù)關(guān)鍵詞【入群】
加入賣萌屋NLP/IR/Rec與求職討論群
后臺(tái)回復(fù)關(guān)鍵詞【頂會(huì)】
獲取ACL、CIKM等各大頂會(huì)論文集!
?
[1] Ganin, Yaroslav, and Victor Lempitsky. "Unsupervised domain adaptation by backpropagation." International conference on machine learning. PMLR, 2015.
[2] Dowson, D. C., and B. V. Landau. "The Fréchet distance between multivariate normal distributions." Journal of multivariate analysis 12.3 (1982): 450-455.
[3] Hendrycks, Dan, and Thomas Dietterich. "Benchmarking neural network robustness to common corruptions and perturbations." arXiv preprint arXiv:1903.12261 (2019).
[4] Papernot, Nicolas, et al. "Practical black-box attacks against machine learning." Proceedings of the 2017 ACM on Asia conference on computer and communications security. 2017.
[5] Taori, Rohan, et al. "Measuring robustness to natural distribution shifts in image classification." Advances in Neural Information Processing Systems 33 (2020).
總結(jié)
以上是生活随笔為你收集整理的测试集没标签,可以拿来测模型吗?的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 大模型炼丹无从下手?谷歌、OpenAI烧
- 下一篇: 数据缺失、混乱、重复怎么办?最全数据清洗