當(dāng)前位置：首頁(yè) >

【学术相关】作者解读ICML接收论文：如何使用不止一个数据集训练神经网络模型？...

發(fā)布時(shí)間：2025/3/12 36 豆豆

生活随笔收集整理的這篇文章主要介紹了【学术相关】作者解读ICML接收论文：如何使用不止一个数据集训练神经网络模型？... 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

作者：歐明鋒，浙江大學(xué)

導(dǎo)讀：在實(shí)際的深度學(xué)習(xí)項(xiàng)目中，難免遇到多個(gè)相似數(shù)據(jù)集，這時(shí)一次僅用單個(gè)數(shù)據(jù)集訓(xùn)練模型，難免造成局限。是否存在利用多個(gè)數(shù)據(jù)集訓(xùn)練的可能性？本文帶來(lái)解讀。

01?介紹

迄今為止，在深度學(xué)習(xí)領(lǐng)域，最流行的范式或者大家最常用的范式是端到端學(xué)習(xí)范式。

我們可以把該范式簡(jiǎn)單概括為四個(gè)步驟：準(zhǔn)備數(shù)據(jù)，喂入網(wǎng)絡(luò)數(shù)據(jù)，神經(jīng)網(wǎng)絡(luò)優(yōu)化，最后評(píng)估模型。這個(gè)范式確實(shí)也在各個(gè)領(lǐng)域取得了巨大成功。

然而，當(dāng)我們?cè)谧鲆恍?shí)際的工程應(yīng)用時(shí)，一項(xiàng)任務(wù)可能有多個(gè)相似數(shù)據(jù)集，比如在寵物分類的Dogs vs Cats, Oxford-IIIT Pet數(shù)據(jù)集，交通車輛檢測(cè)的BDD100k，KITTI-object等數(shù)據(jù)集。通常的做法是一次僅選擇其中的一個(gè)進(jìn)行各種模型訓(xùn)練，這不僅浪費(fèi)了其他的數(shù)據(jù)集，也同時(shí)給模型帶來(lái)局限。

因此，我們可能會(huì)問(wèn)這樣一個(gè)問(wèn)題：為什么只使用一個(gè)數(shù)據(jù)集來(lái)訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型？

這是我在Graviti作為算法實(shí)習(xí)生，與leader以及導(dǎo)師一起完成的一項(xiàng)研究工作，已經(jīng)被ICML2021接受了，非常感謝Datawhale給我向大家分享論文。今天的分享簡(jiǎn)單分為?介紹（包括movivation，related work等等），方法，實(shí)驗(yàn)驗(yàn)證，最后的結(jié)論四個(gè)部分。

回到正題，針對(duì)上面的問(wèn)題，那肯定要利用起多個(gè)數(shù)據(jù)集的。

有些數(shù)據(jù)集可以輕松融合在一起，因?yàn)樗麄冇兄丿B的標(biāo)簽，就像下面這兩個(gè)traffic相關(guān)的數(shù)據(jù)集有共同的標(biāo)簽類 person和bike，但有些不能，我們認(rèn)為其中一個(gè)主要的瓶頸之一是標(biāo)簽差異，標(biāo)簽集存在不同的語(yǔ)義層次或粒度。

就像這里底部寵物數(shù)據(jù)集的例子，數(shù)據(jù)集a標(biāo)簽是貓狗等，數(shù)據(jù)集b標(biāo)簽是一些貓狗的品種如布偶貓，薩摩耶等，因?yàn)閮蓚€(gè)數(shù)據(jù)集的標(biāo)簽粒度存在差異，導(dǎo)致其無(wú)法直接融合。

事實(shí)上，確實(shí)有些前人的工作涉及該方面，我將這些工作主要分為了兩類：1.是左邊的直接融合，直接在標(biāo)簽空間進(jìn)行，這要求標(biāo)簽的一致性，這通常可以通過(guò)偽標(biāo)簽的方式進(jìn)行；2.是右邊的間接融合，它可以抽象為通過(guò)共享的隱藏向量空間進(jìn)行數(shù)據(jù)集融合，相應(yīng)的算法框架涉及遷移學(xué)習(xí)、領(lǐng)域自適應(yīng)等。

而我們的思路是從數(shù)據(jù)集的語(yǔ)義信息角度出發(fā)，由于具有相似目的的數(shù)據(jù)集其標(biāo)簽在領(lǐng)域知識(shí)是具有的語(yǔ)義關(guān)聯(lián)，所以我們就通過(guò)構(gòu)造一個(gè)統(tǒng)一的知識(shí)驅(qū)動(dòng)的標(biāo)簽圖來(lái)在標(biāo)簽空間中直接進(jìn)行數(shù)據(jù)集融合。

這里舉了個(gè)具體的例子，左邊的部分是動(dòng)物領(lǐng)域的三個(gè)相似的數(shù)據(jù)集及其標(biāo)簽集，由于這些標(biāo)簽集之間的語(yǔ)義層次和粒度不同，它們無(wú)法輕松融合。然而，在通過(guò)標(biāo)簽集之間的語(yǔ)義關(guān)系建立標(biāo)簽圖之后，這些數(shù)據(jù)集成功地連接起來(lái)，三個(gè)數(shù)據(jù)集就被組合成一個(gè)單一的數(shù)據(jù)集。

更具體地來(lái)說(shuō)，左邊是傳統(tǒng)的未融合數(shù)據(jù)集的示例，幾個(gè)相似的數(shù)據(jù)集，但標(biāo)簽集之間存在差異，每個(gè)數(shù)據(jù)集對(duì)應(yīng)一個(gè)單標(biāo)簽預(yù)測(cè)模型的訓(xùn)練過(guò)程。右邊我們提出的方法，我們將這些數(shù)據(jù)集連接在一起，驅(qū)動(dòng)模型預(yù)測(cè) 標(biāo)簽圖上以目標(biāo)節(jié)點(diǎn)為終點(diǎn)的整個(gè)軌跡，而不是單一的標(biāo)簽預(yù)測(cè)。

我們模型的基本架構(gòu)就是特征提取網(wǎng)絡(luò)接上序列生成網(wǎng)絡(luò)，即Encoder-Decoder的結(jié)構(gòu)。

介紹部分就到這里，接下來(lái)是方法部分。

02 方法

首先是圖譜構(gòu)建的流程，這里其實(shí)是展示了一個(gè)抽象化的流程。這里假設(shè)對(duì)兩個(gè)數(shù)據(jù)集的標(biāo)簽來(lái)構(gòu)建圖譜，這兩個(gè)數(shù)據(jù)集分別假設(shè)為：

貓狗二分類數(shù)據(jù)集
貓狗的細(xì)粒度品種分類數(shù)據(jù)集

構(gòu)建步驟抽象為以下四個(gè)步驟， 1.首先是添加根節(jié)點(diǎn)，就是黃色的動(dòng)物節(jié)點(diǎn)；2. 所有數(shù)據(jù)集的標(biāo)簽節(jié)點(diǎn)，就是綠色的節(jié)點(diǎn)；3. 以及代表屬性特征的擴(kuò)展節(jié)點(diǎn)，即藍(lán)色的節(jié)點(diǎn)；4. 最后連接邊。

但實(shí)際上這個(gè)圖的構(gòu)建過(guò)程是更為具體和直接的，因?yàn)檫@個(gè)圖其實(shí)不是我們構(gòu)造的，而是通過(guò) “竊取”來(lái)的。因?yàn)檫@個(gè)標(biāo)簽圖本質(zhì)上是從相關(guān)的領(lǐng)域幾十年來(lái)積累的領(lǐng)域知識(shí)中獲得的。

以貓的品種分類為例：

首先，我們將cat設(shè)置為根節(jié)點(diǎn)，接著我們從Purina這樣的領(lǐng)域網(wǎng)站上發(fā)現(xiàn)了三種類型的coat特性。因此，我們添加它們作為增強(qiáng)節(jié)點(diǎn)來(lái)表示貓的一方面外觀特征；其次，我們check了coat field中的對(duì)應(yīng)框“Short”，發(fā)現(xiàn)了許多短毛品種，并將它們放置在增強(qiáng)節(jié)點(diǎn)shorthair下。通過(guò)類似的方式，就可以構(gòu)建出一張很大的或者說(shuō)完整的標(biāo)簽圖。

同時(shí)在剛剛的這個(gè)過(guò)程中，我們很容易發(fā)現(xiàn)，構(gòu)造過(guò)程類似于人類在執(zhí)行分類時(shí)的決策方式。當(dāng)我們?nèi)丝吹揭环N動(dòng)物時(shí)，我們首先根據(jù)它的全局特征來(lái)判斷它的大致類別，然后仔細(xì)觀察它的局部特征來(lái)確定它細(xì)分的品種。

也就是說(shuō)在我們的方法中，模型在執(zhí)行推理時(shí)，標(biāo)簽圖其實(shí)提供了一個(gè)“決策過(guò)程”。

此外，我們認(rèn)為這種方法是象征主義和連接主義的結(jié)合。也就是說(shuō)，我們將幾十年積累起來(lái)的領(lǐng)域知識(shí)歸納為一個(gè)深度神經(jīng)網(wǎng)絡(luò)模型。

為了更好地捕捉下方標(biāo)簽圖上同一層級(jí)節(jié)點(diǎn)間的關(guān)系，我們定義了競(jìng)爭(zhēng)節(jié)點(diǎn)的概念。

定義u和w是競(jìng)爭(zhēng)節(jié)點(diǎn)，當(dāng)且僅當(dāng)u和w有著共同的祖先節(jié)點(diǎn)，并且它們?cè)诜诸惙ㄉ鲜腔コ獾摹?/p>

針對(duì)競(jìng)爭(zhēng)節(jié)點(diǎn)，我們提出了block-softmax；因?yàn)閷?duì)于一般softmax，所有類別都在相互競(jìng)爭(zhēng)。但是，在我們的體系結(jié)構(gòu)中，競(jìng)爭(zhēng)關(guān)系僅存在于競(jìng)爭(zhēng)節(jié)點(diǎn)之間。因此做了一個(gè)block的限制，從而將相對(duì)概率的計(jì)算限制到了每個(gè)競(jìng)爭(zhēng)節(jié)點(diǎn)組內(nèi)。右圖就是一個(gè)對(duì)比示意圖：

說(shuō)完節(jié)點(diǎn)來(lái)到路徑，我們也定義了確定性和不確定性路徑來(lái)分別處理類別具有確定性以及不確定特征的情況。首先是確定性路徑，它的定義如這里所示，比較抽象，我們就直接來(lái)看一個(gè)具體的例子：

給定標(biāo)簽節(jié)點(diǎn)v和經(jīng)過(guò)該節(jié)點(diǎn)的路徑P(v)，如果不存其他路徑P′(v)滿足條件：? u∈P(v),w∈P^′(v)， u,w形成競(jìng)爭(zhēng)節(jié)點(diǎn)并且u ≠w 則P(v)是確定性路徑。

右圖中的一個(gè)例子就是動(dòng)物-》貓-〉短毛->英國(guó)短毛貓，之所以說(shuō)這條路徑是確定的是因?yàn)?#xff0c;所有的英國(guó)短毛貓都是短毛的。

首先是確定性路徑的訓(xùn)練，我們采用了Teacher forcing的訓(xùn)練策略，該流程如右圖所示，對(duì)于確定性ground truth路徑P，我們將其視為一個(gè)序列，讓循環(huán)單元自回歸地預(yù)測(cè)序列上的每個(gè)節(jié)點(diǎn)，然后我們就能得到如下的損失函數(shù)，（本質(zhì)上就是最大化整條正確路徑的概率），從而反向傳播并優(yōu)化。

然后是關(guān)于非確定性路徑。給定路徑錨定（anchoring）標(biāo)簽節(jié)點(diǎn),，如果存一條其他路徑滿足條件：,，,形成競(jìng)爭(zhēng)節(jié)點(diǎn)并且，則是非確定性路徑。

右圖中有三條不確定性路徑，被標(biāo)記為紅色。因?yàn)橛?guó)短發(fā)貓的毛色模式可以是純色、重點(diǎn)色、虎斑色中的任意一種。因此，經(jīng)過(guò)這三個(gè)節(jié)點(diǎn)到英國(guó)短毛節(jié)點(diǎn)的路徑都是不確定的。

由于其路徑中的不確定節(jié)點(diǎn)導(dǎo)致teacher forcing策略無(wú)法正常使用，所以我們采用了Reinforce算法。首先我們定義了一個(gè)激勵(lì)函數(shù)，即“模型采樣的生成路徑”和“ground truth標(biāo)簽節(jié)點(diǎn)集”之間交集的歸一化大小。進(jìn)而定義出了損失函數(shù)，其實(shí)本質(zhì)上就是最大化采樣生成路徑的期望獎(jiǎng)勵(lì)，能夠通過(guò)最后一個(gè)式子估計(jì)出不確定性路徑的梯度，具體的推導(dǎo)請(qǐng)參考reinforce的論文。

然后我們最終的訓(xùn)練策略的話其實(shí)就是在一個(gè)batch中依次進(jìn)行確定性和非確定性路徑的訓(xùn)練，具體詳細(xì)的訓(xùn)練流程就不在這里說(shuō)了，有興趣的可以看一下我們論文中的偽代碼。

03 實(shí)驗(yàn)

實(shí)驗(yàn)部分我們分別在單標(biāo)簽圖像和文本分類任務(wù)上進(jìn)行的。

首先，關(guān)于數(shù)據(jù)集設(shè)置，分為三組：

第一組是關(guān)于寵物分類，第二組是關(guān)于花分類，第三組是對(duì)arxiv文章進(jìn)行學(xué)科分類，arxiv學(xué)科的標(biāo)簽其實(shí)是有層級(jí)的，比如第一級(jí)cs，第二級(jí) ml，arxiv augment就只保留了其最高層級(jí)的標(biāo)簽。

前兩組的標(biāo)簽圖都是我們通過(guò)現(xiàn)有的領(lǐng)域知識(shí)構(gòu)建的，arxiv那一組標(biāo)簽其實(shí)是有層級(jí)的，比如第一級(jí)cs，第二級(jí) ml,就直接將層級(jí)關(guān)系展開為標(biāo)簽圖。

組1和組3對(duì)應(yīng)于細(xì)粒度和粗粒度數(shù)據(jù)集的融合，并且數(shù)據(jù)集之間沒有標(biāo)簽重疊，組2對(duì)應(yīng)于在相同粒度級(jí)別上標(biāo)注的兩個(gè)數(shù)據(jù)集的融合，其中重疊標(biāo)簽數(shù)量為8

出于評(píng)估目的，我們的測(cè)試都是在難度更大的細(xì)粒度數(shù)據(jù)集上進(jìn)行的：

然后，是關(guān)于模型的設(shè)置的。

首先是baseline，在圖像分類中，有三種。1.傳統(tǒng)的單標(biāo)簽預(yù)測(cè)模型 2.基于偽標(biāo)簽的融合數(shù)據(jù)集，即為粗?jǐn)?shù)據(jù)集中的樣本生成細(xì)粒度偽標(biāo)簽，并將這些樣本合并到細(xì)粒度數(shù)據(jù)集中。3.它是一個(gè)多標(biāo)簽分類設(shè)置，采用了之前工作中的一個(gè)關(guān)鍵實(shí)驗(yàn)。而在文本分類任務(wù)中，基線是傳統(tǒng)的單標(biāo)簽預(yù)測(cè)模型。

然后是我們的模型。其中對(duì)于Encoder，圖像分類任務(wù)中使用EfficientNet-b4而文本分類任務(wù)使用Bert或LSTM作為特征提取器，對(duì)于Decoder使用GRU，并且在圖像分類任務(wù)中融合了注意力模塊來(lái)幫助GRU單元在不同的step關(guān)注到圖像中不同位置的信息。

然后是實(shí)驗(yàn)的主要結(jié)果。從表中可以看出兩點(diǎn)：

1.如紅色虛線框中對(duì)比數(shù)據(jù)所示，即使沒有額外數(shù)據(jù)集的幫助，簡(jiǎn)單地將標(biāo)簽擴(kuò)展為標(biāo)簽關(guān)系圖，再加上我們的訓(xùn)練策略，表現(xiàn)仍然會(huì)有所提升。因?yàn)閷?biāo)簽擴(kuò)展為標(biāo)簽關(guān)系圖，其實(shí)本質(zhì)上就是一種數(shù)據(jù)增強(qiáng)的方式，只是與傳統(tǒng)的數(shù)據(jù)增強(qiáng)方法集中于數(shù)據(jù)本身上不同，本文增強(qiáng)了標(biāo)簽之間的關(guān)系，或者另一種角度來(lái)看本文為每個(gè)標(biāo)簽的樣本又引入了額外的標(biāo)簽，即額外的監(jiān)督信息。

2.如綠色虛線框中的對(duì)比數(shù)據(jù)所示，使用本文所提出的方法要優(yōu)于直接融合，以及基于偽標(biāo)簽融合的方法，同時(shí)也要優(yōu)于傳統(tǒng)的單標(biāo)簽預(yù)測(cè)模型，說(shuō)明了我們方法在標(biāo)簽空間進(jìn)行數(shù)據(jù)集融合的可行性。

更重要的是，我們的方法具有增強(qiáng)的可解釋性。為了說(shuō)明這一點(diǎn)，我們以波斯貓為例，波斯貓用紅色虛線橢圓標(biāo)記，波斯貓的毛色模式是重點(diǎn)色或純色，這是不確定的。該模型通過(guò)確定性的重點(diǎn)色和純色的貓類樣本來(lái)學(xué)習(xí)這兩種顏色模式的特征，應(yīng)用在不確定性路徑樣本的推理上，從而區(qū)分波斯貓中不同毛色模式的樣本。這就像之前說(shuō)的，我們的標(biāo)簽圖其實(shí)就是為我們的模型在推理時(shí)提供了決策過(guò)程的過(guò)程，從而使其更具有可解釋性。實(shí)驗(yàn)部分到此結(jié)束。

04 結(jié)論

在這項(xiàng)工作中，我們研究了數(shù)據(jù)集連接的問(wèn)題，更具體地說(shuō)是在標(biāo)簽系統(tǒng)不一致時(shí)的標(biāo)簽集連接問(wèn)題。我們提出了一個(gè)新的框架來(lái)解決這個(gè)問(wèn)題，包括標(biāo)簽空間擴(kuò)充、遞歸神經(jīng)網(wǎng)絡(luò)、序列訓(xùn)練和策略梯度。經(jīng)過(guò)訓(xùn)練的模型在性能和可解釋性方面都顯示出良好的結(jié)果。

當(dāng)然這項(xiàng)工作只是一個(gè)多數(shù)據(jù)集連接初步的探索，其中還有很多問(wèn)題可以研究解決，包括以下：

圖譜質(zhì)量的如何衡量，
如何構(gòu)建更加魯棒的方法來(lái)適應(yīng)的有噪聲標(biāo)簽關(guān)系圖，
融合后數(shù)據(jù)集產(chǎn)生的分布偏移問(wèn)題該如何解決，

同時(shí)直接還有很多可擴(kuò)展的方向，包括：

偽標(biāo)簽方法相結(jié)合
在其他任務(wù)如目標(biāo)檢測(cè)、分割上進(jìn)行探索

以上的話就是對(duì)我們這項(xiàng)工作的整體介紹，關(guān)于該項(xiàng)工作的更多細(xì)節(jié)可以去arxiv上看看我們的paper。

往期精彩回顧適合初學(xué)者入門人工智能的路線及資料下載機(jī)器學(xué)習(xí)及深度學(xué)習(xí)筆記等資料打印機(jī)器學(xué)習(xí)在線手冊(cè)深度學(xué)習(xí)筆記專輯《統(tǒng)計(jì)學(xué)習(xí)方法》的代碼復(fù)現(xiàn)專輯 AI基礎(chǔ)下載黃海廣老師《機(jī)器學(xué)習(xí)課程》視頻課黃海廣老師《機(jī)器學(xué)習(xí)課程》711頁(yè)完整版課件

本站qq群554839127，加入微信群請(qǐng)掃碼：

總結(jié)

以上是生活随笔為你收集整理的【学术相关】作者解读ICML接收论文：如何使用不止一个数据集训练神经网络模型？...的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。