當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

ImageNet验证集6%的标签都是错的，MIT：十大常用数据集没那么靠谱

發(fā)布時(shí)間：2024/10/8 编程问答 56 豆豆

生活随笔收集整理的這篇文章主要介紹了 ImageNet验证集6%的标签都是错的，MIT：十大常用数据集没那么靠谱小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

作者｜張倩、小舟

?來(lái)源｜機(jī)器之心

把老虎標(biāo)成猴子，把青蛙標(biāo)成貓，把碼頭標(biāo)成紙巾……MIT、Amazon 的一項(xiàng)研究表明，ImageNet 等十個(gè)主流機(jī)器學(xué)習(xí)數(shù)據(jù)集的測(cè)試集平均錯(cuò)誤率高達(dá) 3.4%。

我們平時(shí)用的機(jī)器學(xué)習(xí)數(shù)據(jù)集存在各種各樣的錯(cuò)誤，這是一個(gè)大家都已經(jīng)發(fā)現(xiàn)并接受的事實(shí)。為了提高模型準(zhǔn)確率，有些學(xué)者已經(jīng)開(kāi)始著手研究這些數(shù)據(jù)集中的錯(cuò)誤，但他們的研究主要集中在訓(xùn)練集，沒(méi)有人系統(tǒng)研究過(guò)機(jī)器學(xué)習(xí)測(cè)試集的誤差。

眾所周知，測(cè)試集是我們拿來(lái)衡量機(jī)器學(xué)習(xí)模型性能的基準(zhǔn)。如果測(cè)試集錯(cuò)誤百出，我們得?到的性能數(shù)據(jù)也會(huì)存在很大偏差。?

在一篇新論文中，麻省理工 CSAIL 和亞馬遜的研究者對(duì) 10 個(gè)主流機(jī)器學(xué)習(xí)數(shù)據(jù)集的測(cè)試集展開(kāi)了研究，發(fā)現(xiàn)它們的平均錯(cuò)誤率竟高達(dá) 3.4%。其中，最有名的 ImageNet 數(shù)據(jù)集的驗(yàn)證集中至少存在 2916 個(gè)錯(cuò)誤，錯(cuò)誤率為 6%；QuickDraw 數(shù)據(jù)集中至少存在 500 萬(wàn)個(gè)錯(cuò)誤，錯(cuò)誤率為 10%。

論文鏈接：

https://arxiv.org/pdf/2103.14749.pdf

下圖 1 顯示了各數(shù)據(jù)集中存在的錯(cuò)誤示例：

為了向所有人展示這些錯(cuò)誤，幫助改進(jìn)數(shù)據(jù)集，研究者還做了一個(gè)專(zhuān)門(mén)的歸類(lèi)網(wǎng)站。

網(wǎng)站地址：https://labelerrors.com/

該網(wǎng)站列出的錯(cuò)誤主要包括三種類(lèi)型。第一種是標(biāo)錯(cuò)的圖像，如碼頭被標(biāo)記成紙巾。

第二種是被標(biāo)錯(cuò)的文本情感傾向，如亞馬遜的商品評(píng)價(jià)本來(lái)是消極的，但被標(biāo)成積極的。

第三種是被標(biāo)錯(cuò)的 YouTube 視頻的音頻，如愛(ài)莉安娜 · 格蘭德的高音片段被標(biāo)記成口哨。

論文作者在研究中發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象：ResNet-18 這類(lèi)比較簡(jiǎn)單的模型錯(cuò)誤率要低于 ResNet-50 這種更為復(fù)雜的模型，這取決于不相關(guān)數(shù)據(jù)（噪聲）的普遍性。因此，作者建議，如果你的數(shù)據(jù)集標(biāo)簽錯(cuò)誤率高達(dá) 10%，你可以考慮使用較為簡(jiǎn)單的模型。?

為了方便大家復(fù)現(xiàn)論文結(jié)果并在自己的數(shù)據(jù)集中找到標(biāo)簽錯(cuò)誤，研究者還在 GitHub 上開(kāi)源了他們用到的 Python 包（cleanlab）。

項(xiàng)目地址：https://github.com/cgnorthcutt/cleanlab

參與調(diào)查的十大數(shù)據(jù)集

下表一顯示了研究者本次調(diào)查的十個(gè)數(shù)據(jù)集以及它們的測(cè)試集錯(cuò)誤率。

以下是這些數(shù)據(jù)集的詳細(xì)信息，從它們的標(biāo)注過(guò)程我們看出標(biāo)簽出錯(cuò)的一些可能原因：

MNIST

MNIST 數(shù)據(jù)集是是美國(guó)國(guó)家標(biāo)準(zhǔn)與技術(shù)研究院收集整理的大型手寫(xiě)數(shù)字?jǐn)?shù)據(jù)庫(kù)，最早是在 1998 年 Yan Lecun 的論文中提出的。該數(shù)據(jù)集包含了 0-9 共 10 類(lèi)手寫(xiě)數(shù)字圖片，每張圖片都做了尺寸歸一化，都是 28x28 大小的灰度圖。該數(shù)據(jù)集的 ground-truth 標(biāo)簽是通過(guò)將數(shù)字與任務(wù)的指令相匹配來(lái)確定的，以便于復(fù)制一組特定的數(shù)字。標(biāo)簽錯(cuò)誤可能是由于未遵循該數(shù)據(jù)集的相關(guān)說(shuō)明和手寫(xiě)歧義引起的。

CIFAR-10 和 CIFAR-100 數(shù)據(jù)集

CIFAR-10 和 CIFAR-100 數(shù)據(jù)集分別由 10 類(lèi)和 100 類(lèi) 32 × 32 圖像組成。這兩個(gè)數(shù)據(jù)集通過(guò)在互聯(lián)網(wǎng)上搜索類(lèi)別標(biāo)簽來(lái)收集圖像。人工標(biāo)記時(shí)通過(guò)過(guò)濾掉標(biāo)簽錯(cuò)誤的圖像，來(lái)選擇與類(lèi)別標(biāo)簽匹配的圖像。標(biāo)記器僅根據(jù)圖像中最突出的一個(gè)實(shí)例來(lái)賦予標(biāo)簽，其中允許該實(shí)例有部分遮擋。

Caltech-256

Caltech-256 數(shù)據(jù)集是一種包含圖像和類(lèi)別的數(shù)據(jù)集，其中的圖像是從圖像搜索引擎中抓取的，人工標(biāo)記時(shí)將圖像評(píng)定為 good、bad 和 not applicable，從數(shù)據(jù)集中過(guò)濾掉遮擋過(guò)度、混亂，以及非物體類(lèi)別示例的圖像。

ImageNet

ImageNet 數(shù)據(jù)集是機(jī)器學(xué)習(xí)研究中最常用的數(shù)據(jù)集之一。該數(shù)據(jù)集通過(guò)在幾個(gè)圖像搜索引擎上查詢(xún) WordNet 同義詞集（synset）中的單詞來(lái)抓取圖像。這些圖像由 Amazon Mechanical Turk 的工作人員標(biāo)記，他們要檢查這些圖像是否包含特定同義詞集中的對(duì)象，過(guò)濾掉對(duì)象混亂、遮擋過(guò)度的圖像，并確保數(shù)據(jù)集的圖像多樣性。

QuickDraw

QuickDraw 涂鴉數(shù)據(jù)集是一個(gè)包含 5000 萬(wàn)張圖畫(huà)的集合，分成了 345 個(gè)類(lèi)別，這些圖畫(huà)都來(lái)自于 Quick, Draw! 游戲的玩家。這些圖像帶有一些元數(shù)據(jù)標(biāo)注，包括玩家被要求繪畫(huà)的內(nèi)容等。該數(shù)據(jù)集可能存在圖像不完整、標(biāo)簽不匹配等情況。

20news

20 Newsgroups 數(shù)據(jù)集是由發(fā)布到 Usenet 新聞組的文章的集合，一共涉及 20 種話題。該數(shù)據(jù)集常被用于對(duì)文本分類(lèi)和聚類(lèi)圖像模型進(jìn)行基準(zhǔn)測(cè)試。其中每個(gè)樣本的標(biāo)簽是最初發(fā)布的新聞組（例如 misc.forsale），該標(biāo)簽可以在數(shù)據(jù)收集過(guò)程中獲得。

IMDB

IMDB 大型影評(píng)數(shù)據(jù)集是情感分類(lèi)數(shù)據(jù)集，用于二元情感分類(lèi)。其中的標(biāo)簽是由用戶(hù)的評(píng)價(jià)決定的：滿分 10 分，分?jǐn)?shù)≤ 4 被視為否定，分?jǐn)?shù)≥ 7 被視為肯定。

評(píng)價(jià)中表示這是一部值得看的作品，但 IMDB 數(shù)據(jù)集給出的標(biāo)簽是負(fù)面的。

Amazon Reviews

Amazon Reviews 數(shù)據(jù)集是來(lái)自亞馬遜客戶(hù)的文本評(píng)價(jià)和 5 星級(jí)評(píng)級(jí)的集合，通常被用于基準(zhǔn)情感分析模型。

AudioSet

AudioSet 數(shù)據(jù)集包含 632 類(lèi)音頻類(lèi)別以及 2084320 條人工標(biāo)記的每段 10 秒長(zhǎng)度的聲音剪輯片段（片段來(lái)自 YouTube 視頻），被稱(chēng)為聲音版 ImageNet。研究者指出一些標(biāo)簽錯(cuò)誤是因?yàn)闃?biāo)簽混亂、人為錯(cuò)誤以及音頻檢測(cè)差異造成的。

如果測(cè)試集錯(cuò)誤太多，大模型未必好用

在估計(jì)了各個(gè)測(cè)試集的錯(cuò)誤率之后，研究者利用 ImageNet 和 CIFAR-10 作為案例研究了測(cè)試集標(biāo)簽錯(cuò)誤對(duì)基準(zhǔn)穩(wěn)定性造成的影響。

雖然這些基準(zhǔn)測(cè)試數(shù)據(jù)中存在很多錯(cuò)誤標(biāo)簽，但研究者發(fā)現(xiàn)，在移除或修正這些錯(cuò)誤之后，基準(zhǔn)中的模型相對(duì)排名并沒(méi)有受到影響。但他們也發(fā)現(xiàn)，這些基準(zhǔn)結(jié)果是不穩(wěn)定的：與參數(shù)較少的模型（如 ResNet-18）相比，容量較大的模型（如 NasNet）在預(yù)測(cè)結(jié)果中更加能夠反映這些系統(tǒng)性標(biāo)簽錯(cuò)誤的分布，而且這種效應(yīng)隨著測(cè)試標(biāo)簽錯(cuò)誤普遍性的增加而變得更加明顯。

這不是傳統(tǒng)的過(guò)擬合。更大的模型能夠更好地泛化至測(cè)試數(shù)據(jù)中給定的噪聲標(biāo)簽，但這是有問(wèn)題的，因?yàn)樵跇?biāo)簽修正之后的測(cè)試數(shù)據(jù)上進(jìn)行評(píng)估時(shí)，這些模型給出的預(yù)測(cè)結(jié)果比不上那些容量較小的模型。

在存在大量標(biāo)注錯(cuò)誤的現(xiàn)實(shí)世界數(shù)據(jù)集中，小容量模型可能比大容量模型更有用。舉個(gè)例子，從基于原始給定標(biāo)簽的測(cè)試準(zhǔn)確率來(lái)看，NasNet 似乎要優(yōu)于 ResNet-18，但如果用標(biāo)簽修正之后的測(cè)試集進(jìn)行測(cè)試，NasNet 的準(zhǔn)確率其實(shí)比不上 ResNet-18。由于后者在現(xiàn)實(shí)中更為重要，在這種情況下，我們?cè)诂F(xiàn)實(shí)中部署的也應(yīng)該是 ResNet-18，而不是 NasNet。

為了評(píng)估流行預(yù)訓(xùn)練模型的基準(zhǔn)如何變化，研究者隨機(jī)并遞增地刪除正確標(biāo)記樣本，每次刪除一個(gè)，直到只剩下一組原始的被錯(cuò)誤標(biāo)記的測(cè)試數(shù)據(jù)（標(biāo)簽得到糾正）。借助這種方法，他們只刪除了 6% 的正確標(biāo)記測(cè)試樣本就讓 ResNet-18 的表現(xiàn)超越了 ResNet-50。

該研究表明，如果著手糾正測(cè)試集中的標(biāo)簽錯(cuò)誤或在數(shù)據(jù)集噪聲較多時(shí)使用較小 / 較簡(jiǎn)單的模型，ML 從業(yè)者可能會(huì)從中受益。當(dāng)然，你首先要確定你的數(shù)據(jù)集噪聲是不是真的有那么大，判斷方法可以在論文中找到。

參考鏈接：https://www.csail.mit.edu/news/major-ml-datasets-have-tens-thousands-errors

????

現(xiàn)在，在「知乎」也能找到我們了

進(jìn)入知乎首頁(yè)搜索「PaperWeekly」

點(diǎn)擊「關(guān)注」訂閱我們的專(zhuān)欄吧

關(guān)于PaperWeekly

PaperWeekly 是一個(gè)推薦、解讀、討論、報(bào)道人工智能前沿論文成果的學(xué)術(shù)平臺(tái)。如果你研究或從事 AI 領(lǐng)域，歡迎在公眾號(hào)后臺(tái)點(diǎn)擊「交流群」，小助手將把你帶入 PaperWeekly 的交流群里。

總結(jié)

以上是生活随笔為你收集整理的ImageNet验证集6%的标签都是错的，MIT：十大常用数据集没那么靠谱的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇： u盘怎么安装网络适配器驱动程序 U盘安装
下一篇： CVPR 2021 | 破坏方法失效，新