测试集没标签,可以拿来测模型吗?
文:維建
編:白鹡鸰
背景
正常情況下,我們可以用一個帶標簽的數據集來測試分類器的表現(稱之為測試集)。然而,現實中,因為種種因素的制約(標注成本高、標注難度大等 Google:窮人不配搞機器學習),很多場景下難以求得一個規模大、標注正確率高、采樣無偏的測試集。而采用人工評估的方式,往往耗時耗力,且方差極大,結果對機器學習模型的迭代速度產生了很大的制約。
由此,本文提出了 自動模型評估(AutoEval) ?——目標是在給定了有標簽的訓練集的前提下,估計出分類器在 無標簽 的測試數據集上的準確性。
乍一聽似乎腦洞很大,測試集沒標簽還能叫測試集嗎?沒標簽的情況下還能算出準確率,那豈不是可以瘋狂刷爆(過擬合)那些給了樣本卻沒給標簽的榜單了?
顯然,自動模型評估這一任務價值很大,但難度也大。今天想和大家分享下我們近期在這一任務上提出的解決方案——衡量數據分布的差異。方法的出發點是:測試集和訓練集數據分布差異越大,分類器在測試集上的準確率就會越低。我們采用了回歸模型來估計分類器的性能。給定一個無標簽的測試集,我們可以算出其和訓練集的特征分布差異。將該差異輸入給回歸器,我們會得到分類器準確率的預測值。我們發現回歸器可以較為準確地預測分類器在不同測試集合上的表現,進而幫助我們了解分類器在不同測試場景下的性能。
論文題目:
Are Labels Necessary for Classifier Accuracy Evaluation?
論文鏈接:
https://arxiv.org/abs/2011.03395
Arxiv訪問慢的小伙伴也可以在【夕小瑤的賣萌屋】訂閱號后臺回復關鍵詞【1215】下載論文PDF~
方法
出發點
機器學習領域有一個重要的研究任務叫“域適應(domain adaption)”,它的核心研究目標是讓模型在來源于不同數據分布的測試樣本上有較好的性能表現 [1]。該任務有一個很重要的出發點,就是 數據分布的偏移會影響分類器的準確性 。因此我們可以從數據分布差異出發,來推測模型的性能表現。具體來說,我們研究了分類器在不同數據分布下的準確率,發現兩者(數據分布和準確率)在統計上是負相關的。下面將介紹如何構建一個元數據集合來得到這一負相關觀測結論,并展示具體的相關性結果。
元數據集
為了觀測一個分類器在不同數據分布場景下的表現,我們需要很多各不相同的測試數據集合。為此,我們構造一個 元數據集合 (meta dataset, 多個數據集組成的數據集)。元數據集包含很多樣本數據集(sample set),每一個樣本集具備不同的數據分布且有很多的圖像。因為很難收集大量樣本集(例如1000個),我們采用旋轉、調整對比度、平移、背景更改等方法生成不同的樣本集。
如圖1,給定一個種子集,我們可以變幻出15個各不相同的樣本集。值得注意的是,每一個樣本集和種子集(seed set)共享相同的前景對象,即圖像的語義目標沒有被修改,依然具備原來的標簽。也就是說,每一個生成的樣本集合都是帶圖像標記的。 在實驗中,我們通過圖像變換的方式得到了500多個樣本集。
圖1 通過圖像變換生成的特征分布不同的樣本集
相關性分析
給定一個分類器(在訓練集上訓練)和一個元數據集(基于種子集生成),我們可以通過Frechet distance (FD) 衡量訓練集和每一個樣本集的數據分布差異 [2];又因為樣本數據集都是有標簽的,可以得到分類器在各個樣本數據集上的準確率。
Frechet distance衡量兩個數據集合分布差異。其基于兩個數據集合的一階和二階統計量來計算差異。
圖2是FD與分類器準確率關系的可視化結果。值得注意的是,圖中的每一個點代表一個樣本集。我們觀察到分類器準確性與分布偏移之間存在很強的負線性相關性。
圖2 分類器準確率和分布偏移的線性擬合結果
回歸模型
有了上述相關性,我們可以根據測試集與訓練集之間的分布偏移來預測分類器的準確性。在本文中,我們提出了兩種回歸方案:
線性回歸:對于來自元數據集的每個樣本集,我們計算分類器準確性及其在訓練集之間的分布偏移。根據結果擬合一個簡單的線性回歸。
網絡回歸:直接從樣本集回歸分類器的性能。具體來說,一個數據集合對應一個性能,直接學習一個映射網絡。網絡的輸入是一個數據集合的統計特征,輸出是該數據集上的統計特征,此處我們選取了與分布相關的一階統計量(均值)和二階統計量(協方差)。
自問:為什么能用一個特征代表一個數據集合?
自答:根據相關性分析知道數據分布差異和準確率有強相關,因此可以用與數據分布差異有關的統計特征來刻畫一個數據集合。
然后建立一個小型的全連接網絡以學習映射功能:該網絡使用樣本集的均值矢量和協方差矩陣作為輸入并輸出分類器的準確性。
兩個回歸方法很直接很簡單,因為它們都是基于統計上的相關性分析來提出的。兩者有很直接相關的統計特性,因此簡單有效,不需要太多復雜的東西。
實驗結果
實驗方面,我們首先基于COCO的訓練集上訓練得到一個分類器,而后基于COCO交叉驗證集合生成一個元數據集合,就可以訓練出兩個回歸模型。我們將回歸模型運用到其他的三個真實世界測試集(Caltech,Pascal和ImageNet),來估計COCO分類器在這三個無標簽數據集合上的表現/準確率。由于自動模型評估問題還沒有相應的工作來進行探究,因此對比的方法較少。
實驗結果表明,我們的方法做出了比較不錯且合理預測(RMSE小于4%)。這是因為元數據集包含許多不同的樣本集,因此回歸方法可以“看到”各種數據分布情況,知道分類器在不同測試情形下的準確率表現。論文中,我們還詳細驗證了回歸模型的魯棒性并且討論了如何構建一個較好的元數據集,感興趣的朋友們來看呀~
圖3 預測器的效果,第一行是模型實際準確率,最后兩行是通過我們方法預測的模型準確率,可以看出網絡回歸對模型準確率的預測已經很接近真相了
總結
越來越多的工作都在關注模型在實際測試場景下對噪聲的魯棒性、抗對抗樣本能力以及對異常樣本的處理能力 [5]。自動模型評估直接預測分類器在無標簽測試場景下的性能,進而直觀地幫助我們理解分類器的可靠性與泛化性。希望能夠看到自動模型評估和現有工作的結合。此外,如何將自動模型評估問題推廣到其他視覺任務(如目標檢測與圖像分割)和自然語言處理任務也是一個比較有趣的研究方向。
后臺回復關鍵詞【入群】
加入賣萌屋NLP/IR/Rec與求職討論群
后臺回復關鍵詞【頂會】
獲取ACL、CIKM等各大頂會論文集!
?
[1] Ganin, Yaroslav, and Victor Lempitsky. "Unsupervised domain adaptation by backpropagation." International conference on machine learning. PMLR, 2015.
[2] Dowson, D. C., and B. V. Landau. "The Fréchet distance between multivariate normal distributions." Journal of multivariate analysis 12.3 (1982): 450-455.
[3] Hendrycks, Dan, and Thomas Dietterich. "Benchmarking neural network robustness to common corruptions and perturbations." arXiv preprint arXiv:1903.12261 (2019).
[4] Papernot, Nicolas, et al. "Practical black-box attacks against machine learning." Proceedings of the 2017 ACM on Asia conference on computer and communications security. 2017.
[5] Taori, Rohan, et al. "Measuring robustness to natural distribution shifts in image classification." Advances in Neural Information Processing Systems 33 (2020).
總結
以上是生活随笔為你收集整理的测试集没标签,可以拿来测模型吗?的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 大模型炼丹无从下手?谷歌、OpenAI烧
- 下一篇: 数据缺失、混乱、重复怎么办?最全数据清洗