日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

ImageNet验证集6%的标签都是错的,MIT:十大常用数据集没那么靠谱

發(fā)布時(shí)間:2024/10/8 编程问答 56 豆豆
生活随笔 收集整理的這篇文章主要介紹了 ImageNet验证集6%的标签都是错的,MIT:十大常用数据集没那么靠谱 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

作者|張倩、小舟

?來(lái)源|機(jī)器之心

把老虎標(biāo)成猴子,把青蛙標(biāo)成貓,把碼頭標(biāo)成紙巾……MIT、Amazon 的一項(xiàng)研究表明,ImageNet 等十個(gè)主流機(jī)器學(xué)習(xí)數(shù)據(jù)集的測(cè)試集平均錯(cuò)誤率高達(dá) 3.4%。

我們平時(shí)用的機(jī)器學(xué)習(xí)數(shù)據(jù)集存在各種各樣的錯(cuò)誤,這是一個(gè)大家都已經(jīng)發(fā)現(xiàn)并接受的事實(shí)。為了提高模型準(zhǔn)確率,有些學(xué)者已經(jīng)開(kāi)始著手研究這些數(shù)據(jù)集中的錯(cuò)誤,但他們的研究主要集中在訓(xùn)練集,沒(méi)有人系統(tǒng)研究過(guò)機(jī)器學(xué)習(xí)測(cè)試集的誤差。

眾所周知,測(cè)試集是我們拿來(lái)衡量機(jī)器學(xué)習(xí)模型性能的基準(zhǔn)。如果測(cè)試集錯(cuò)誤百出,我們得?到的性能數(shù)據(jù)也會(huì)存在很大偏差。?

在一篇新論文中,麻省理工 CSAIL 和亞馬遜的研究者對(duì) 10 個(gè)主流機(jī)器學(xué)習(xí)數(shù)據(jù)集的測(cè)試集展開(kāi)了研究,發(fā)現(xiàn)它們的平均錯(cuò)誤率竟高達(dá) 3.4%。其中,最有名的 ImageNet 數(shù)據(jù)集的驗(yàn)證集中至少存在 2916 個(gè)錯(cuò)誤,錯(cuò)誤率為 6%;QuickDraw 數(shù)據(jù)集中至少存在 500 萬(wàn)個(gè)錯(cuò)誤,錯(cuò)誤率為 10%。

論文鏈接:

https://arxiv.org/pdf/2103.14749.pdf

下圖 1 顯示了各數(shù)據(jù)集中存在的錯(cuò)誤示例:

為了向所有人展示這些錯(cuò)誤,幫助改進(jìn)數(shù)據(jù)集,研究者還做了一個(gè)專(zhuān)門(mén)的歸類(lèi)網(wǎng)站。

網(wǎng)站地址:https://labelerrors.com/

該網(wǎng)站列出的錯(cuò)誤主要包括三種類(lèi)型。第一種是標(biāo)錯(cuò)的圖像,如碼頭被標(biāo)記成紙巾。

第二種是被標(biāo)錯(cuò)的文本情感傾向,如亞馬遜的商品評(píng)價(jià)本來(lái)是消極的,但被標(biāo)成積極的。

第三種是被標(biāo)錯(cuò)的 YouTube 視頻的音頻,如愛(ài)莉安娜 · 格蘭德的高音片段被標(biāo)記成口哨。

論文作者在研究中發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象:ResNet-18 這類(lèi)比較簡(jiǎn)單的模型錯(cuò)誤率要低于 ResNet-50 這種更為復(fù)雜的模型,這取決于不相關(guān)數(shù)據(jù)(噪聲)的普遍性。因此,作者建議,如果你的數(shù)據(jù)集標(biāo)簽錯(cuò)誤率高達(dá) 10%,你可以考慮使用較為簡(jiǎn)單的模型。?

為了方便大家復(fù)現(xiàn)論文結(jié)果并在自己的數(shù)據(jù)集中找到標(biāo)簽錯(cuò)誤,研究者還在 GitHub 上開(kāi)源了他們用到的 Python 包(cleanlab)。

項(xiàng)目地址:https://github.com/cgnorthcutt/cleanlab

參與調(diào)查的十大數(shù)據(jù)集

下表一顯示了研究者本次調(diào)查的十個(gè)數(shù)據(jù)集以及它們的測(cè)試集錯(cuò)誤率。

以下是這些數(shù)據(jù)集的詳細(xì)信息,從它們的標(biāo)注過(guò)程我們看出標(biāo)簽出錯(cuò)的一些可能原因:

MNIST

MNIST 數(shù)據(jù)集是是美國(guó)國(guó)家標(biāo)準(zhǔn)與技術(shù)研究院收集整理的大型手寫(xiě)數(shù)字?jǐn)?shù)據(jù)庫(kù),最早是在 1998 年 Yan Lecun 的論文中提出的。該數(shù)據(jù)集包含了 0-9 共 10 類(lèi)手寫(xiě)數(shù)字圖片,每張圖片都做了尺寸歸一化,都是 28x28 大小的灰度圖。該數(shù)據(jù)集的 ground-truth 標(biāo)簽是通過(guò)將數(shù)字與任務(wù)的指令相匹配來(lái)確定的,以便于復(fù)制一組特定的數(shù)字。標(biāo)簽錯(cuò)誤可能是由于未遵循該數(shù)據(jù)集的相關(guān)說(shuō)明和手寫(xiě)歧義引起的。

CIFAR-10 和 CIFAR-100 數(shù)據(jù)集

CIFAR-10 和 CIFAR-100 數(shù)據(jù)集分別由 10 類(lèi)和 100 類(lèi) 32 × 32 圖像組成。這兩個(gè)數(shù)據(jù)集通過(guò)在互聯(lián)網(wǎng)上搜索類(lèi)別標(biāo)簽來(lái)收集圖像。人工標(biāo)記時(shí)通過(guò)過(guò)濾掉標(biāo)簽錯(cuò)誤的圖像,來(lái)選擇與類(lèi)別標(biāo)簽匹配的圖像。標(biāo)記器僅根據(jù)圖像中最突出的一個(gè)實(shí)例來(lái)賦予標(biāo)簽,其中允許該實(shí)例有部分遮擋。

Caltech-256

Caltech-256 數(shù)據(jù)集是一種包含圖像和類(lèi)別的數(shù)據(jù)集,其中的圖像是從圖像搜索引擎中抓取的,人工標(biāo)記時(shí)將圖像評(píng)定為 good、bad 和 not applicable,從數(shù)據(jù)集中過(guò)濾掉遮擋過(guò)度、混亂,以及非物體類(lèi)別示例的圖像。

ImageNet

ImageNet 數(shù)據(jù)集是機(jī)器學(xué)習(xí)研究中最常用的數(shù)據(jù)集之一。該數(shù)據(jù)集通過(guò)在幾個(gè)圖像搜索引擎上查詢(xún) WordNet 同義詞集(synset)中的單詞來(lái)抓取圖像。這些圖像由 Amazon Mechanical Turk 的工作人員標(biāo)記,他們要檢查這些圖像是否包含特定同義詞集中的對(duì)象,過(guò)濾掉對(duì)象混亂、遮擋過(guò)度的圖像,并確保數(shù)據(jù)集的圖像多樣性。

QuickDraw

QuickDraw 涂鴉數(shù)據(jù)集是一個(gè)包含 5000 萬(wàn)張圖畫(huà)的集合,分成了 345 個(gè)類(lèi)別,這些圖畫(huà)都來(lái)自于 Quick, Draw! 游戲的玩家。這些圖像帶有一些元數(shù)據(jù)標(biāo)注,包括玩家被要求繪畫(huà)的內(nèi)容等。該數(shù)據(jù)集可能存在圖像不完整、標(biāo)簽不匹配等情況。

20news

20 Newsgroups 數(shù)據(jù)集是由發(fā)布到 Usenet 新聞組的文章的集合,一共涉及 20 種話題。該數(shù)據(jù)集常被用于對(duì)文本分類(lèi)和聚類(lèi)圖像模型進(jìn)行基準(zhǔn)測(cè)試。其中每個(gè)樣本的標(biāo)簽是最初發(fā)布的新聞組(例如 misc.forsale),該標(biāo)簽可以在數(shù)據(jù)收集過(guò)程中獲得。

IMDB

IMDB 大型影評(píng)數(shù)據(jù)集是情感分類(lèi)數(shù)據(jù)集,用于二元情感分類(lèi)。其中的標(biāo)簽是由用戶(hù)的評(píng)價(jià)決定的:滿分 10 分,分?jǐn)?shù)≤ 4 被視為否定,分?jǐn)?shù)≥ 7 被視為肯定。

評(píng)價(jià)中表示這是一部值得看的作品,但 IMDB 數(shù)據(jù)集給出的標(biāo)簽是負(fù)面的。

Amazon Reviews

Amazon Reviews 數(shù)據(jù)集是來(lái)自亞馬遜客戶(hù)的文本評(píng)價(jià)和 5 星級(jí)評(píng)級(jí)的集合,通常被用于基準(zhǔn)情感分析模型。

AudioSet

AudioSet 數(shù)據(jù)集包含 632 類(lèi)音頻類(lèi)別以及 2084320 條人工標(biāo)記的每段 10 秒長(zhǎng)度的聲音剪輯片段(片段來(lái)自 YouTube 視頻),被稱(chēng)為聲音版 ImageNet。研究者指出一些標(biāo)簽錯(cuò)誤是因?yàn)闃?biāo)簽混亂、人為錯(cuò)誤以及音頻檢測(cè)差異造成的。

如果測(cè)試集錯(cuò)誤太多,大模型未必好用

在估計(jì)了各個(gè)測(cè)試集的錯(cuò)誤率之后,研究者利用 ImageNet 和 CIFAR-10 作為案例研究了測(cè)試集標(biāo)簽錯(cuò)誤對(duì)基準(zhǔn)穩(wěn)定性造成的影響。

雖然這些基準(zhǔn)測(cè)試數(shù)據(jù)中存在很多錯(cuò)誤標(biāo)簽,但研究者發(fā)現(xiàn),在移除或修正這些錯(cuò)誤之后,基準(zhǔn)中的模型相對(duì)排名并沒(méi)有受到影響。但他們也發(fā)現(xiàn),這些基準(zhǔn)結(jié)果是不穩(wěn)定的:與參數(shù)較少的模型(如 ResNet-18)相比,容量較大的模型(如 NasNet)在預(yù)測(cè)結(jié)果中更加能夠反映這些系統(tǒng)性標(biāo)簽錯(cuò)誤的分布,而且這種效應(yīng)隨著測(cè)試標(biāo)簽錯(cuò)誤普遍性的增加而變得更加明顯。

這不是傳統(tǒng)的過(guò)擬合。更大的模型能夠更好地泛化至測(cè)試數(shù)據(jù)中給定的噪聲標(biāo)簽,但這是有問(wèn)題的,因?yàn)樵跇?biāo)簽修正之后的測(cè)試數(shù)據(jù)上進(jìn)行評(píng)估時(shí),這些模型給出的預(yù)測(cè)結(jié)果比不上那些容量較小的模型。

在存在大量標(biāo)注錯(cuò)誤的現(xiàn)實(shí)世界數(shù)據(jù)集中,小容量模型可能比大容量模型更有用。舉個(gè)例子,從基于原始給定標(biāo)簽的測(cè)試準(zhǔn)確率來(lái)看,NasNet 似乎要優(yōu)于 ResNet-18,但如果用標(biāo)簽修正之后的測(cè)試集進(jìn)行測(cè)試,NasNet 的準(zhǔn)確率其實(shí)比不上 ResNet-18。由于后者在現(xiàn)實(shí)中更為重要,在這種情況下,我們?cè)诂F(xiàn)實(shí)中部署的也應(yīng)該是 ResNet-18,而不是 NasNet。

為了評(píng)估流行預(yù)訓(xùn)練模型的基準(zhǔn)如何變化,研究者隨機(jī)并遞增地刪除正確標(biāo)記樣本,每次刪除一個(gè),直到只剩下一組原始的被錯(cuò)誤標(biāo)記的測(cè)試數(shù)據(jù)(標(biāo)簽得到糾正)。借助這種方法,他們只刪除了 6% 的正確標(biāo)記測(cè)試樣本就讓 ResNet-18 的表現(xiàn)超越了 ResNet-50。

該研究表明,如果著手糾正測(cè)試集中的標(biāo)簽錯(cuò)誤或在數(shù)據(jù)集噪聲較多時(shí)使用較小 / 較簡(jiǎn)單的模型,ML 從業(yè)者可能會(huì)從中受益。當(dāng)然,你首先要確定你的數(shù)據(jù)集噪聲是不是真的有那么大,判斷方法可以在論文中找到。

參考鏈接:https://www.csail.mit.edu/news/major-ml-datasets-have-tens-thousands-errors

????

現(xiàn)在,在「知乎」也能找到我們了

進(jìn)入知乎首頁(yè)搜索「PaperWeekly」

點(diǎn)擊「關(guān)注」訂閱我們的專(zhuān)欄吧

關(guān)于PaperWeekly

PaperWeekly 是一個(gè)推薦、解讀、討論、報(bào)道人工智能前沿論文成果的學(xué)術(shù)平臺(tái)。如果你研究或從事 AI 領(lǐng)域,歡迎在公眾號(hào)后臺(tái)點(diǎn)擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。

總結(jié)

以上是生活随笔為你收集整理的ImageNet验证集6%的标签都是错的,MIT:十大常用数据集没那么靠谱的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。