當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

重要的，是那些训练中被多次遗忘的样本

發(fā)布時(shí)間：2024/7/5 编程问答 35 豆豆

生活随笔收集整理的這篇文章主要介紹了重要的，是那些训练中被多次遗忘的样本小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

?文 | kid丶

源 | 知乎

?編 | 兔子醬

今天跟大家分享一篇很有意思的文章，是一篇探討深度學(xué)習(xí)模型記憶&遺忘機(jī)制的文章，是一篇角度很新穎的題材，同時(shí)又有一定啟發(fā)作用。

這篇文章發(fā)表在深度學(xué)習(xí)頂會(huì)ICLR19，標(biāo)題是《An empirical study of example forgetting during deep neural network learning》。

這篇文章是我最近看到的最有意思的文章之一了，同時(shí)我跑了這篇文章的代碼并做了很深入的研究和分析。很有意思，值得一讀！希望這篇博客能對(duì)您目前的工作有所啟發(fā)！

首先，我們來看一個(gè)機(jī)器學(xué)習(xí)里的基本概念“learnt”與“forget”。

learnt與forget

如果一個(gè)樣本被模型"learnt"：代表該樣本能夠被模型正確分類。接著，本文定義了一個(gè)十分有意思的概念，叫做"forgetting event"：即樣本在某個(gè)時(shí)間點(diǎn) t 被"learnt"，然后在之后的一個(gè)時(shí)間點(diǎn) t' 被錯(cuò)誤分類了，其中 t' > t，這樣的一個(gè)事件稱之為 "forgetting event" 。相反，如果一些樣本，它一旦被 "learnt" 之后，再也沒有被忘記過，那么我們稱該樣本為 "unforgettable examples"。

舉個(gè)例子，它就像小孩在學(xué)習(xí)記單詞一樣，對(duì)于單詞 "apple"，如果這個(gè)小孩能認(rèn)出它是"蘋果"，這說明這個(gè)單詞被 "learnt"；小孩又陸陸續(xù)續(xù)的記了很多其它的單詞，當(dāng)他再一次遇到單詞"apple"的時(shí)候，如果此時(shí)小孩覺得該單詞的意思是"梨子"，那么說明，這個(gè)單詞被小孩遺忘了，這個(gè)事件稱之為 "forgetting event"。對(duì)于一些簡(jiǎn)單的單詞例如"car"，被小孩學(xué)會(huì)后再也沒有被遺忘過，那么這些單詞我們稱之為 "unforgettable examples"。

那么，對(duì)于神經(jīng)網(wǎng)絡(luò)，在學(xué)習(xí)樣本的時(shí)候，哪些樣本會(huì)被容易 "learnt"，哪些樣本容易被模型遺忘，哪些樣本又會(huì)是 "unforgettable examples" 呢？

文章給出了三個(gè)非常重要且有指導(dǎo)性的結(jié)論：

CIFAR10、CIFAR100這類的數(shù)據(jù)集中存在著大量的 "unforgettable examples"。即這些樣本一旦被模型學(xué)會(huì)將不再遺忘，并且這一現(xiàn)象與隨機(jī)種子的設(shè)置以及不同模型結(jié)構(gòu)的選擇無關(guān)。
具有噪聲標(biāo)記的樣本往往是"most forgettable examples"，這一點(diǎn)有利于我們?nèi)プR(shí)別噪聲樣本。
如果把很大一部分"least forgettable examples"丟掉，用剩下的樣本進(jìn)行訓(xùn)練，在測(cè)試集上仍然具有極具競(jìng)爭(zhēng)力的性能。

首先來看第一個(gè)結(jié)論，上圖分別代表在三個(gè)不同數(shù)據(jù)集上的結(jié)果。可以看出，"forgetting event" 為 0 的樣本數(shù)占絕大多數(shù)，也就是說，絕大部分樣本一旦被模型學(xué)會(huì)了，就不會(huì)再被遺忘。

第二個(gè)結(jié)論，如上圖所示，代表 "forgetting event" 在兩種樣本上的分布。左邊的圖紅色是噪聲樣本，綠色是干凈樣本。右邊的圖代表同一批樣本在加噪聲前(藍(lán)色)和在加噪聲后(紅色)的分布情況。其實(shí)兩者是從兩個(gè)不同的方面來刻畫噪聲樣本和干凈樣本對(duì) "forgetting event" 的分布差異。可以明顯看出，噪聲樣本的分布(紅色)比較靠右，也就是說，噪聲樣本容易被模型忘記，當(dāng)然這一結(jié)論也很符合認(rèn)知。

第三個(gè)結(jié)論更有意思！首先兩個(gè)圖的縱坐標(biāo)都是測(cè)試集上的準(zhǔn)確率。左邊的圖的橫坐標(biāo)為訓(xùn)練集被移除的百分比，右邊圖的橫坐標(biāo)為被移除樣本的 "forgetting event" 的平均數(shù)。

首先來看左邊這個(gè)圖，紅、綠、藍(lán)線分別代表不移除、有選擇性的移除以及隨機(jī)移除樣本，其中有選擇性的移除是指優(yōu)先移除掉 "forgetting event" 小的樣本。換句話來說，首先把那些 "unforgettable examples" 的簡(jiǎn)單樣本從訓(xùn)練集中拿掉，然后再慢慢拿掉一些遺忘次數(shù)較少的樣本，可以看出在有選擇性的拿掉 20%-30% 的樣本時(shí)，模型的性能竟絲毫沒有下降，后續(xù)就算性能下降了也會(huì)比隨機(jī)的拿掉要好。右邊這個(gè)圖也有類似的結(jié)果和結(jié)論。

這個(gè)實(shí)驗(yàn)主要想說明一個(gè)問題，那就是重要的樣本，往往是那些被遺忘次數(shù)多的樣本。換句話說，對(duì)于學(xué)習(xí)一個(gè)有效的分類模型，我們只需要關(guān)注那些遺忘次數(shù)多的樣本就夠了。

接著，我們來看看 "unforgettable and forgettable examples" 有怎樣的區(qū)別。很顯然也很容易想到，就是不容易被遺忘的那些樣本往往是一些簡(jiǎn)單樣本，其目標(biāo)清楚、明顯且背景簡(jiǎn)單單一；而那些容易被忘記的樣本往往是一些難樣本，其背景復(fù)雜且目標(biāo)不清楚、不完整等等。

總結(jié)

首先，難樣本和噪聲樣本都容易被模型忘記。再看結(jié)論3，把絕大部分"unforgettable"樣本丟掉，發(fā)現(xiàn)性能基本沒掉。說明 "unforgettable"的樣本其實(shí)對(duì)訓(xùn)練模型沒啥幫助，有就行了，多沒用！換句話說，只需要難樣本就行了，但是呢，噪聲樣本也往往是 "most forgettabel"的，然后我又不想要噪聲樣本，這就有矛盾了，也能帶來很多思考了。歡迎大家在評(píng)論區(qū)分享你的想法！

文末福利
后臺(tái)回復(fù)關(guān)鍵詞【入群】
加入賣萌屋NLP/IR/Rec與求職討論群
有頂會(huì)審稿人、大廠研究員、知乎大V和妹紙
等你來撩哦~

總結(jié)

以上是生活随笔為你收集整理的重要的，是那些训练中被多次遗忘的样本的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

样本

上一篇：屠榜CV还不是这篇论文的终极目标，它更大
下一篇：新年立个小目标！代码写得更规范！