【学术相关】作者解读ICML接收论文:如何使用不止一个数据集训练神经网络模型?...
作者:歐明鋒,浙江大學(xué)
導(dǎo)讀:在實(shí)際的深度學(xué)習(xí)項(xiàng)目中,難免遇到多個(gè)相似數(shù)據(jù)集,這時(shí)一次僅用單個(gè)數(shù)據(jù)集訓(xùn)練模型,難免造成局限。是否存在利用多個(gè)數(shù)據(jù)集訓(xùn)練的可能性?本文帶來(lái)解讀。
01?介紹
迄今為止,在深度學(xué)習(xí)領(lǐng)域,最流行的范式或者大家最常用的范式是端到端學(xué)習(xí)范式。
我們可以把該范式簡(jiǎn)單概括為四個(gè)步驟:準(zhǔn)備數(shù)據(jù),喂入網(wǎng)絡(luò)數(shù)據(jù),神經(jīng)網(wǎng)絡(luò)優(yōu)化,最后評(píng)估模型。這個(gè)范式確實(shí)也在各個(gè)領(lǐng)域取得了巨大成功。
然而,當(dāng)我們?cè)谧鲆恍?shí)際的工程應(yīng)用時(shí),一項(xiàng)任務(wù)可能有多個(gè)相似數(shù)據(jù)集,比如在寵物分類的Dogs vs Cats, Oxford-IIIT Pet數(shù)據(jù)集,交通車輛檢測(cè)的BDD100k,KITTI-object等數(shù)據(jù)集。通常的做法是一次僅選擇其中的一個(gè)進(jìn)行各種模型訓(xùn)練,這不僅浪費(fèi)了其他的數(shù)據(jù)集,也同時(shí)給模型帶來(lái)局限。
因此,我們可能會(huì)問(wèn)這樣一個(gè)問(wèn)題:為什么只使用一個(gè)數(shù)據(jù)集來(lái)訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型?
這是我在Graviti作為算法實(shí)習(xí)生,與leader以及導(dǎo)師一起完成的一項(xiàng)研究工作,已經(jīng)被ICML2021接受了,非常感謝Datawhale給我向大家分享論文。今天的分享簡(jiǎn)單分為?介紹(包括movivation,related work等等),方法,實(shí)驗(yàn)驗(yàn)證,最后的結(jié)論 四個(gè)部分。
回到正題,針對(duì)上面的問(wèn)題,那肯定要利用起多個(gè)數(shù)據(jù)集的。
有些數(shù)據(jù)集可以輕松融合在一起,因?yàn)樗麄冇兄丿B的標(biāo)簽,就像下面這兩個(gè)traffic相關(guān)的數(shù)據(jù)集有共同的標(biāo)簽類 person和bike, 但有些不能,我們認(rèn)為其中一個(gè)主要的瓶頸之一是標(biāo)簽差異,標(biāo)簽集存在不同的語(yǔ)義層次或粒度。
就像這里底部寵物數(shù)據(jù)集的例子,數(shù)據(jù)集a標(biāo)簽是貓狗等,數(shù)據(jù)集b標(biāo)簽是一些貓狗的品種如布偶貓,薩摩耶等,因?yàn)閮蓚€(gè)數(shù)據(jù)集的標(biāo)簽粒度存在差異,導(dǎo)致其無(wú)法直接融合。
事實(shí)上,確實(shí)有些前人的工作涉及該方面, 我將這些工作主要分為了兩類:1.是左邊的直接融合,直接在標(biāo)簽空間進(jìn)行,這要求標(biāo)簽的一致性,這通常可以通過(guò)偽標(biāo)簽的方式進(jìn)行;2.是右邊的間接融合,它可以抽象為通過(guò)共享的隱藏向量空間進(jìn)行數(shù)據(jù)集融合,相應(yīng)的算法框架涉及遷移學(xué)習(xí)、領(lǐng)域自適應(yīng)等。
而我們的思路是從數(shù)據(jù)集的語(yǔ)義信息角度出發(fā), 由于具有相似目的的數(shù)據(jù)集其標(biāo)簽在領(lǐng)域知識(shí)是具有的語(yǔ)義關(guān)聯(lián),所以我們就通過(guò)構(gòu)造一個(gè)統(tǒng)一的知識(shí)驅(qū)動(dòng)的標(biāo)簽圖來(lái)在標(biāo)簽空間中直接進(jìn)行數(shù)據(jù)集融合。
這里舉了個(gè)具體的例子,左邊的部分是動(dòng)物領(lǐng)域的三個(gè)相似的數(shù)據(jù)集及其標(biāo)簽集,由于這些標(biāo)簽集之間的語(yǔ)義層次和粒度不同,它們無(wú)法輕松融合。然而,在通過(guò)標(biāo)簽集之間的語(yǔ)義關(guān)系建立標(biāo)簽圖之后,這些數(shù)據(jù)集成功地連接起來(lái),三個(gè)數(shù)據(jù)集就被組合成一個(gè)單一的數(shù)據(jù)集。
更具體地來(lái)說(shuō),左邊是傳統(tǒng)的未融合數(shù)據(jù)集的示例,幾個(gè)相似的數(shù)據(jù)集,但標(biāo)簽集之間存在差異,每個(gè)數(shù)據(jù)集對(duì)應(yīng)一個(gè)單標(biāo)簽預(yù)測(cè)模型的訓(xùn)練過(guò)程。右邊我們提出的方法,我們將這些數(shù)據(jù)集連接在一起,驅(qū)動(dòng)模型預(yù)測(cè) 標(biāo)簽圖上以目標(biāo)節(jié)點(diǎn)為終點(diǎn)的整個(gè)軌跡,而不是單一的標(biāo)簽預(yù)測(cè)。
我們模型的基本架構(gòu)就是特征提取網(wǎng)絡(luò)接上序列生成網(wǎng)絡(luò),即Encoder-Decoder的結(jié)構(gòu)。
介紹部分就到這里,接下來(lái)是方法部分。
02 方法
首先是圖譜構(gòu)建的流程,這里其實(shí)是展示了一個(gè)抽象化的流程。這里假設(shè)對(duì)兩個(gè)數(shù)據(jù)集的標(biāo)簽來(lái)構(gòu)建圖譜, 這兩個(gè)數(shù)據(jù)集分別假設(shè)為:
貓狗二分類數(shù)據(jù)集
貓狗的細(xì)粒度品種分類數(shù)據(jù)集
構(gòu)建步驟抽象為以下四個(gè)步驟, 1.首先是添加根節(jié)點(diǎn),就是黃色的動(dòng)物節(jié)點(diǎn);2. 所有數(shù)據(jù)集的標(biāo)簽節(jié)點(diǎn),就是綠色的節(jié)點(diǎn);3. 以及代表屬性特征的擴(kuò)展節(jié)點(diǎn),即藍(lán)色的節(jié)點(diǎn);4. 最后連接邊。
但實(shí)際上這個(gè)圖的構(gòu)建過(guò)程是更為具體和直接的,因?yàn)檫@個(gè)圖其實(shí)不是我們構(gòu)造的,而是通過(guò) “竊取”來(lái)的。因?yàn)檫@個(gè)標(biāo)簽圖本質(zhì)上是從相關(guān)的領(lǐng)域幾十年來(lái)積累的領(lǐng)域知識(shí)中獲得的。
以貓的品種分類為例:
首先,我們將cat設(shè)置為根節(jié)點(diǎn),接著我們從Purina這樣的領(lǐng)域網(wǎng)站上發(fā)現(xiàn)了三種類型的coat特性。因此,我們添加它們作為增強(qiáng)節(jié)點(diǎn)來(lái)表示貓的一方面外觀特征;其次,我們check了coat field中的對(duì)應(yīng)框“Short”,發(fā)現(xiàn)了許多短毛品種,并將它們放置在增強(qiáng)節(jié)點(diǎn)shorthair下。通過(guò)類似的方式,就可以構(gòu)建出一張很大的或者說(shuō)完整的標(biāo)簽圖。
同時(shí)在剛剛的這個(gè)過(guò)程中,我們很容易發(fā)現(xiàn),構(gòu)造過(guò)程類似于人類在執(zhí)行分類時(shí)的決策方式。當(dāng)我們?nèi)丝吹揭环N動(dòng)物時(shí),我們首先根據(jù)它的全局特征來(lái)判斷它的大致類別,然后仔細(xì)觀察它的局部特征來(lái)確定它細(xì)分的品種。
也就是說(shuō)在我們的方法中,模型在執(zhí)行推理時(shí),標(biāo)簽圖其實(shí)提供了一個(gè)“決策過(guò)程”。
此外,我們認(rèn)為這種方法是象征主義和連接主義的結(jié)合。也就是說(shuō),我們將幾十年積累起來(lái)的領(lǐng)域知識(shí)歸納為一個(gè)深度神經(jīng)網(wǎng)絡(luò)模型。
為了更好地捕捉下方標(biāo)簽圖上同一層級(jí)節(jié)點(diǎn)間的關(guān)系,我們定義了競(jìng)爭(zhēng)節(jié)點(diǎn)的概念。
定義u和w是競(jìng)爭(zhēng)節(jié)點(diǎn),當(dāng)且僅當(dāng)u和w有著共同的祖先節(jié)點(diǎn),并且它們?cè)诜诸惙ㄉ鲜腔コ獾摹?/p>
針對(duì)競(jìng)爭(zhēng)節(jié)點(diǎn),我們提出了block-softmax;因?yàn)閷?duì)于一般softmax,所有類別都在相互競(jìng)爭(zhēng)。但是,在我們的體系結(jié)構(gòu)中,競(jìng)爭(zhēng)關(guān)系僅存在于競(jìng)爭(zhēng)節(jié)點(diǎn)之間。因此做了一個(gè)block的限制,從而將相對(duì)概率的計(jì)算限制到了每個(gè)競(jìng)爭(zhēng)節(jié)點(diǎn)組內(nèi)。右圖就是一個(gè)對(duì)比示意圖:
說(shuō)完節(jié)點(diǎn)來(lái)到路徑,我們也定義了確定性和不確定性路徑來(lái)分別處理 類別具有確定性以及不確定特征 的情況。首先是確定性路徑,它的定義如這里所示,比較抽象,我們就直接來(lái)看一個(gè)具體的例子:
給定標(biāo)簽節(jié)點(diǎn)v和經(jīng)過(guò)該節(jié)點(diǎn)的路徑P(v),如果不存其他路徑P′(v)滿足條件:? u∈P(v),w∈P^′(v), u,w形成競(jìng)爭(zhēng)節(jié)點(diǎn)并且u ≠w 則P(v)是確定性路徑。
右圖中的一個(gè)例子就是動(dòng)物-》貓-〉短毛->英國(guó)短毛貓, 之所以說(shuō)這條路徑是確定的是因?yàn)?#xff0c;所有的英國(guó)短毛貓都是短毛的。
首先是確定性路徑的訓(xùn)練,我們采用了Teacher forcing的訓(xùn)練策略, 該流程如右圖所示,對(duì)于確定性ground truth路徑P,我們將其視為一個(gè)序列,讓循環(huán)單元自回歸地預(yù)測(cè)序列上的每個(gè)節(jié)點(diǎn), 然后我們就能得到如下的損失函數(shù),(本質(zhì)上就是最大化整條正確路徑的概率),從而反向傳播并優(yōu)化。
然后是關(guān)于非確定性路徑。給定路徑錨定(anchoring)標(biāo)簽節(jié)點(diǎn),,如果存一條其他路徑滿足條件:,,,形成競(jìng)爭(zhēng)節(jié)點(diǎn)并且 ,則是非確定性路徑。
右圖中有三條不確定性路徑,被標(biāo)記為紅色。因?yàn)橛?guó)短發(fā)貓的毛色模式可以是純色、重點(diǎn)色、虎斑色中的任意一種。因此,經(jīng)過(guò)這三個(gè)節(jié)點(diǎn)到英國(guó)短毛節(jié)點(diǎn)的路徑都是不確定的。
由于其路徑中的不確定節(jié)點(diǎn)導(dǎo)致teacher forcing策略無(wú)法正常使用,所以我們采用了Reinforce算法。首先我們定義了一個(gè)激勵(lì)函數(shù),即“模型采樣的生成路徑”和“ground truth標(biāo)簽節(jié)點(diǎn)集”之間交集的歸一化大小。進(jìn)而定義出了損失函數(shù),其實(shí)本質(zhì)上就是最大化采樣生成路徑的期望獎(jiǎng)勵(lì),能夠通過(guò)最后一個(gè)式子估計(jì)出不確定性路徑的梯度,具體的推導(dǎo)請(qǐng)參考reinforce的論文。
然后我們最終的訓(xùn)練策略的話其實(shí)就是在一個(gè)batch中依次進(jìn)行確定性和非確定性路徑的訓(xùn)練,具體詳細(xì)的訓(xùn)練流程就不在這里說(shuō)了,有興趣的可以看一下我們論文中的偽代碼。
03 實(shí)驗(yàn)
實(shí)驗(yàn)部分我們分別在單標(biāo)簽圖像和文本分類任務(wù)上進(jìn)行的。
首先,關(guān)于數(shù)據(jù)集設(shè)置,分為三組:
第一組是關(guān)于寵物分類,第二組是關(guān)于花分類, 第三組是對(duì)arxiv文章進(jìn)行學(xué)科分類,arxiv學(xué)科的標(biāo)簽其實(shí)是有層級(jí)的,比如第一級(jí)cs,第二級(jí) ml,arxiv augment就只保留了其最高層級(jí)的標(biāo)簽。
前兩組的標(biāo)簽圖都是我們通過(guò)現(xiàn)有的領(lǐng)域知識(shí)構(gòu)建的,arxiv那一組標(biāo)簽其實(shí)是有層級(jí)的,比如第一級(jí)cs,第二級(jí) ml,就直接將層級(jí)關(guān)系展開為標(biāo)簽圖。
組1和組3對(duì)應(yīng)于細(xì)粒度和粗粒度數(shù)據(jù)集的融合,并且數(shù)據(jù)集之間沒有標(biāo)簽重疊, 組2對(duì)應(yīng)于在相同粒度級(jí)別上標(biāo)注的兩個(gè)數(shù)據(jù)集的融合,其中重疊標(biāo)簽數(shù)量為8
出于評(píng)估目的,我們的測(cè)試都是在難度更大的細(xì)粒度數(shù)據(jù)集上進(jìn)行的:
然后,是關(guān)于模型的設(shè)置的。
首先是baseline, 在圖像分類中,有三種。1.傳統(tǒng)的單標(biāo)簽預(yù)測(cè)模型 2.基于偽標(biāo)簽的融合數(shù)據(jù)集,即為粗?jǐn)?shù)據(jù)集中的樣本生成細(xì)粒度偽標(biāo)簽,并將這些樣本合并到細(xì)粒度數(shù)據(jù)集中。3.它是一個(gè)多標(biāo)簽分類設(shè)置,采用了之前工作中的一個(gè)關(guān)鍵實(shí)驗(yàn)。而在文本分類任務(wù)中,基線是傳統(tǒng)的單標(biāo)簽預(yù)測(cè)模型。
然后是我們的模型。其中對(duì)于Encoder,圖像分類任務(wù)中使用EfficientNet-b4而文本分類任務(wù)使用Bert或LSTM作為特征提取器,對(duì)于Decoder使用GRU, 并且在圖像分類任務(wù)中融合了注意力模塊來(lái)幫助GRU單元在不同的step關(guān)注到圖像中不同位置的信息。
然后是實(shí)驗(yàn)的主要結(jié)果。從表中可以看出兩點(diǎn):
1.如紅色虛線框中對(duì)比數(shù)據(jù)所示,即使沒有額外數(shù)據(jù)集的幫助,簡(jiǎn)單地將標(biāo)簽擴(kuò)展為標(biāo)簽關(guān)系圖,再加上我們的訓(xùn)練策略,表現(xiàn)仍然會(huì)有所提升。因?yàn)閷?biāo)簽擴(kuò)展為標(biāo)簽關(guān)系圖,其實(shí)本質(zhì)上就是一種數(shù)據(jù)增強(qiáng)的方式,只是與傳統(tǒng)的數(shù)據(jù)增強(qiáng)方法集中于數(shù)據(jù)本身上不同,本文增強(qiáng)了標(biāo)簽之間的關(guān)系,或者另一種角度來(lái)看本文為每個(gè)標(biāo)簽的樣本又引入了額外的標(biāo)簽,即額外的監(jiān)督信息。
2.如綠色虛線框中的對(duì)比數(shù)據(jù)所示,使用本文所提出的方法要優(yōu)于直接融合,以及基于偽標(biāo)簽融合的方法,同時(shí)也要優(yōu)于傳統(tǒng)的單標(biāo)簽預(yù)測(cè)模型,說(shuō)明了我們方法在標(biāo)簽空間進(jìn)行數(shù)據(jù)集融合的可行性。
更重要的是,我們的方法具有增強(qiáng)的可解釋性。為了說(shuō)明這一點(diǎn),我們以波斯貓為例,波斯貓用紅色虛線橢圓標(biāo)記,波斯貓的毛色模式是重點(diǎn)色或純色,這是不確定的。該模型通過(guò)確定性的重點(diǎn)色和純色的貓類樣本來(lái)學(xué)習(xí)這兩種顏色模式的特征,應(yīng)用在不確定性路徑樣本的推理上,從而區(qū)分波斯貓中不同毛色模式的樣本。這就像之前說(shuō)的,我們的標(biāo)簽圖其實(shí)就是為我們的模型在推理時(shí)提供了決策過(guò)程的過(guò)程,從而使其更具有可解釋性。實(shí)驗(yàn)部分到此結(jié)束。
04 結(jié)論
在這項(xiàng)工作中,我們研究了數(shù)據(jù)集連接的問(wèn)題,更具體地說(shuō)是在標(biāo)簽系統(tǒng)不一致時(shí)的標(biāo)簽集連接問(wèn)題。我們提出了一個(gè)新的框架來(lái)解決這個(gè)問(wèn)題,包括標(biāo)簽空間擴(kuò)充、遞歸神經(jīng)網(wǎng)絡(luò)、序列訓(xùn)練和策略梯度。經(jīng)過(guò)訓(xùn)練的模型在性能和可解釋性方面都顯示出良好的結(jié)果。
當(dāng)然這項(xiàng)工作只是一個(gè)多數(shù)據(jù)集連接初步的探索, 其中還有很多問(wèn)題可以研究解決,包括以下:
圖譜質(zhì)量的如何衡量,
如何構(gòu)建更加魯棒的方法來(lái)適應(yīng)的有噪聲標(biāo)簽關(guān)系圖,
融合后數(shù)據(jù)集產(chǎn)生的分布偏移問(wèn)題該如何解決,
同時(shí)直接還有很多可擴(kuò)展的方向,包括:
偽標(biāo)簽方法相結(jié)合
在其他任務(wù)如目標(biāo)檢測(cè)、分割上進(jìn)行探索
以上的話就是對(duì)我們這項(xiàng)工作的整體介紹,關(guān)于該項(xiàng)工作的更多細(xì)節(jié)可以去arxiv上看看我們的paper。
往期精彩回顧適合初學(xué)者入門人工智能的路線及資料下載機(jī)器學(xué)習(xí)及深度學(xué)習(xí)筆記等資料打印機(jī)器學(xué)習(xí)在線手冊(cè)深度學(xué)習(xí)筆記專輯《統(tǒng)計(jì)學(xué)習(xí)方法》的代碼復(fù)現(xiàn)專輯 AI基礎(chǔ)下載黃海廣老師《機(jī)器學(xué)習(xí)課程》視頻課黃海廣老師《機(jī)器學(xué)習(xí)課程》711頁(yè)完整版課件本站qq群554839127,加入微信群請(qǐng)掃碼:
總結(jié)
以上是生活随笔為你收集整理的【学术相关】作者解读ICML接收论文:如何使用不止一个数据集训练神经网络模型?...的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 优酷视频如何将地区设置为中国大陆
- 下一篇: 优酷视频如何进行连续播放?