當(dāng)前位置：首頁(yè) >

2017上半年无监督特征学习研究成果汇总

發(fā)布時(shí)間：2024/3/26 60 豆豆

生活随笔收集整理的這篇文章主要介紹了 2017上半年无监督特征学习研究成果汇总小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

更多深度文章，請(qǐng)關(guān)注：https://yq.aliyun.com/cloud

特征學(xué)習(xí)在無(wú)監(jiān)督學(xué)習(xí)方式下的趨勢(shì)：回歸到多元學(xué)習(xí)的隨機(jī)目標(biāo)，利用因果關(guān)系來(lái)表征視覺特征，以及在強(qiáng)化學(xué)習(xí)中，通過輔助控制任務(wù)增加目標(biāo)，并通過自發(fā)進(jìn)行預(yù)訓(xùn)練。從未標(biāo)記的數(shù)據(jù)中學(xué)到很多東西，似乎我們只用標(biāo)簽撇去了它的表面。

在這篇文章中，我將向你展示，2017年無(wú)監(jiān)督學(xué)習(xí)領(lǐng)域發(fā)生了什么變化。

無(wú)監(jiān)督學(xué)習(xí)是機(jī)器學(xué)習(xí)中長(zhǎng)期存在的挑戰(zhàn)，它被認(rèn)為是人工智能的重要組成部分。在沒有標(biāo)簽的數(shù)據(jù)中有很多信息，我們并沒有完全的使用它，而值得注意的是，大腦的學(xué)習(xí)機(jī)理大多是無(wú)監(jiān)督的學(xué)習(xí)方式。

為了模擬人腦的終極目標(biāo)，無(wú)監(jiān)督學(xué)習(xí)成為了很多研究人員的研究熱點(diǎn)。接下來(lái)我們就介紹一些近期無(wú)監(jiān)督學(xué)習(xí)的成果。

第一個(gè)成果：多元學(xué)習(xí)的隨機(jī)目標(biāo)

Unsupervised learning by predicting the noise[Bojanowski＆Joulin ICML17]；這篇論文，今年在ICML中排名第一。想法如下：從超球體采樣均勻的隨機(jī)向量，數(shù)值為數(shù)據(jù)點(diǎn)的數(shù)量級(jí)。這些將成為回歸目標(biāo)的替代者。事實(shí)上，通過以最小化損失進(jìn)行監(jiān)督式學(xué)習(xí)，在深層卷積網(wǎng)絡(luò)中學(xué)習(xí)視覺特征，可以將圖像與隨機(jī)向量相匹配。大致過程如圖所示：

特別地，在訓(xùn)練過程網(wǎng)絡(luò)參數(shù)的梯度下降交替之間，將偽目標(biāo)重新分配給不同的圖像，以便最小化損失函數(shù)。這里是ImageNet的視覺特征的結(jié)果；他們都是在ImageNet上訓(xùn)練AlexNet的結(jié)果，左邊是目標(biāo)，右邊是提出無(wú)監(jiān)督的方法。

在論文中探討的轉(zhuǎn)移學(xué)習(xí)，似乎是最先進(jìn)的。但為什么要這樣工作呢？因?yàn)樯窠?jīng)網(wǎng)絡(luò)正在學(xué)習(xí)一個(gè)新的特征空間，這是一種隱含的多元學(xué)習(xí)。通過混合分配進(jìn)行優(yōu)化可能是至關(guān)重要的，因?yàn)椴涣计ヅ鋵⒉辉试S將類似圖像映射給彼此。此外，網(wǎng)絡(luò)必須作為信息瓶頸（information bottleneck）。否則，在無(wú)限容量的情況下，模型將簡(jiǎn)單地學(xué)習(xí)一個(gè)不知情的1對(duì)1圖像到噪聲圖（Noise map）。

第二個(gè)成果：因果關(guān)系的重要性

Discovering causal signals in images[Lopez-Paz et al。CVPR17]我從同LéonBottou鼓舞人心的談話中發(fā)現(xiàn)了第二個(gè)成果：looking for missing signal，接下來(lái)要介紹的是他們的WGAN。這里的討論重點(diǎn)是關(guān)于因果關(guān)系。但在談?wù)撝?#xff0c;讓我們?cè)倩匾幌?#xff0c;看看因果關(guān)系。

如果你站在機(jī)器學(xué)習(xí)視角中去了解因果關(guān)系，你會(huì)很快得出結(jié)論：整個(gè)領(lǐng)域在其基礎(chǔ)上缺少一些相當(dāng)重要的東西。我們創(chuàng)造了一個(gè)完整的解決行業(yè)問題的方法，那就是只考慮相關(guān)性，聯(lián)想和預(yù)測(cè)只是考慮訓(xùn)練數(shù)據(jù)中的相關(guān)性，但這在許多情況下不會(huì)起到真正的作用。如果我們能夠在學(xué)習(xí)決策中考慮上因果關(guān)系的模型會(huì)不會(huì)有所好轉(zhuǎn)？基本上，我們可以避免卷積網(wǎng)絡(luò)告訴我們，圖片中的動(dòng)物是獅子，因?yàn)楸尘帮@示了的Savanna（美國(guó)東南部的大草原，有獅子）。

許多人正在努力實(shí)現(xiàn)這一想法。這篇論文旨在通過實(shí)驗(yàn)驗(yàn)證“圖像數(shù)據(jù)集的高階統(tǒng)計(jì)信息可以告知因果關(guān)系”。更準(zhǔn)確地說(shuō)，作者猜測(cè)，對(duì)象特征和反效應(yīng)特征是密切相關(guān)的，反之亦然，上下文特征和因果特征不一定相關(guān)。上下文特征給出了背景，而對(duì)象特征是通常在圖像數(shù)據(jù)集中的邊界框內(nèi)，分別是大草原和獅子的鬃毛。

“因果特征是導(dǎo)致圖像中對(duì)象存在的原因，而抗因素特征是由圖像中對(duì)象的存在產(chǎn)生的”在我們的例子中，一個(gè)因果關(guān)系確實(shí)是Savanna的視覺模式，而一個(gè)反作用的特征將是獅子的鬃毛。

他們是如何進(jìn)行實(shí)驗(yàn)的？首先，我們需要訓(xùn)練一個(gè)檢測(cè)器作為因果方向。這個(gè)想法是基于以前的許多工作，實(shí)驗(yàn)表明“加性因果模型”可能會(huì)在關(guān)于因果關(guān)系方向的觀察數(shù)據(jù)中留下統(tǒng)計(jì)學(xué)意義，這反過來(lái)可以通過研究高階矩來(lái)檢測(cè)。（如果這些聽起來(lái)很陌生，我建議你閱讀本文的參考資料）。這個(gè)想法是學(xué)習(xí)如何通過神經(jīng)網(wǎng)絡(luò)來(lái)捕獲這個(gè)統(tǒng)計(jì)軌跡，該神經(jīng)網(wǎng)絡(luò)的任務(wù)是區(qū)分因果/反效應(yīng)。

訓(xùn)練這種網(wǎng)絡(luò)的唯一方法就是對(duì)關(guān)于因果關(guān)系的事實(shí)進(jìn)行標(biāo)注。這些數(shù)據(jù)集中并不多。但事實(shí)是，這些數(shù)據(jù)可以很容易地合成，通過采樣變量原因-效應(yīng)和指示方向進(jìn)行人工標(biāo)注。

第二，兩個(gè)版本的圖像，無(wú)論是對(duì)象還是背景消隱，都被標(biāo)準(zhǔn)的深度殘留網(wǎng)絡(luò)特征化。一些對(duì)象和上下文被設(shè)計(jì)在這些特征之上，作為圖像是否可能是關(guān)于對(duì)象或其上下文的信號(hào)。

最后我們可以將對(duì)象和上下文與形象中的因果關(guān)系或反作用關(guān)聯(lián)起來(lái)。

通過實(shí)驗(yàn)證明了上述猜想，這個(gè)實(shí)驗(yàn)意味著圖像中的因果關(guān)系實(shí)際上與對(duì)象及其上下文之間的差異有關(guān)。結(jié)果有希望開辟新的研究途徑，因?yàn)楦玫囊蚬较虻乃惴ㄔ谠瓌t上將有助于學(xué)習(xí)在數(shù)據(jù)分布發(fā)生變化時(shí)更好的學(xué)習(xí)特征。因果關(guān)系應(yīng)該有助于通過了解數(shù)據(jù)生成過程來(lái)構(gòu)建更強(qiáng)大的功能。

第三個(gè)成果：使用無(wú)監(jiān)督輔助任務(wù)的強(qiáng)化學(xué)習(xí)

Reinforcement learning with unsupervised auxiliary tasks[Jaderberg et al。ICLR17]根據(jù)現(xiàn)行的標(biāo)準(zhǔn)，本文顯得有點(diǎn)古老，因?yàn)樵谧珜懕疚臅r(shí)已經(jīng)有60篇引文。實(shí)際上有一些更新的工作已經(jīng)建立在這個(gè)想法上。我選擇這一點(diǎn)，正是因?yàn)樗哂行路f的洞察力，而不是基于它來(lái)討論更復(fù)雜的方法。

第三個(gè)成果主角是強(qiáng)化學(xué)習(xí)。強(qiáng)化學(xué)習(xí)的研究人員的主要困難是稀缺/延遲獎(jiǎng)勵(lì)。那么為什么不通過引入輔助任務(wù)來(lái)增強(qiáng)訓(xùn)練信號(hào)呢？當(dāng)然，??偽獎(jiǎng)勵(lì)必須與真正的目標(biāo)相關(guān)，而不是借助于人類的監(jiān)督。

這篇論文的建議是：通過輔助任務(wù)的性能總和來(lái)增加目標(biāo)函數(shù)（最大化的獎(jiǎng)勵(lì)）。實(shí)際上，將有一些模型近似于主要策略和其他完成附加任務(wù)的策略；那些模型分享他們的一些參數(shù)，例如底層可以共同學(xué)習(xí)來(lái)模擬原始的視覺特征。代理函數(shù)必須提高其在獎(jiǎng)勵(lì)方面的績(jī)效，從而提高輔助任務(wù)的表現(xiàn)。

論文探討的輔助任務(wù)：首先，像素控制。代理學(xué)習(xí)是一個(gè)單獨(dú)的策略，以最大限度地改變輸入圖像上的像素網(wǎng)格。理由是“感知流中的變化通常與環(huán)境中的重要事件相對(duì)應(yīng)”，因此學(xué)習(xí)控制變化是有益的。二，功能控制。訓(xùn)練該代理以預(yù)測(cè)策略/價(jià)值網(wǎng)絡(luò)的某些中間層中的隱藏單元的激活值。這個(gè)想法很有意思，因?yàn)榇淼牟呗曰騼r(jià)值網(wǎng)絡(luò)會(huì)提取與環(huán)境相關(guān)的高級(jí)功能的任務(wù)。三，獎(jiǎng)勵(lì)預(yù)測(cè)。代理學(xué)會(huì)預(yù)測(cè)即將來(lái)臨的回報(bào)。這三個(gè)輔助任務(wù)可以通過從之前的代理經(jīng)驗(yàn)的緩沖區(qū)經(jīng)驗(yàn)回放學(xué)習(xí)。縮短其他細(xì)節(jié)，整個(gè)方法稱為UNREAL。它被應(yīng)用在Atari游戲和Labyrint上學(xué)習(xí)更快更好的策略。

論文中的最終洞察力在于對(duì)像素控制的有效性，而不是簡(jiǎn)單地預(yù)測(cè)具有重建損耗或像素輸入變化的像素。它們都可以被視為視覺自我監(jiān)督學(xué)習(xí)的形式。“學(xué)習(xí)重建只是導(dǎo)致更快的初步學(xué)習(xí)，實(shí)際上會(huì)使得最后的成績(jī)更糟。我們的假設(shè)是，輸入重建會(huì)損害最終的表現(xiàn)，因?yàn)樗鼘⑦^多的重點(diǎn)放在重建視覺輸入的不相關(guān)部分而不是視覺線索的獎(jiǎng)勵(lì)。

第四個(gè)成果：Self-Play讓學(xué)習(xí)過程更快

Intrinsic motivation and automatic curricula via asymmetric self-play[Sukhbaatar et al。arXiv17].我想強(qiáng)調(diào)的最后一個(gè)論文與上述強(qiáng)化學(xué)習(xí)輔助任務(wù)的想法有關(guān)。但是，至關(guān)重要的是，不是明確地調(diào)整目標(biāo)函數(shù)，而是在一定程度上對(duì)代理進(jìn)行了訓(xùn)練，以完成自我優(yōu)化，更簡(jiǎn)單的自動(dòng)完成任務(wù)。

通過將代理分解為“兩個(gè)獨(dú)立的頭腦”，Alice 和Bob，建立了Self-Play的初始階段。論文作者提出Self-Play，假設(shè)環(huán)境必須可逆或重新設(shè)定為初始狀態(tài)。在這種情況下，Alice執(zhí)行一個(gè)任務(wù)，并要求Bob執(zhí)行相同操作，等到Alice最終達(dá)到我們可觀察的狀態(tài)。例如，Alice可以拿起鑰匙，打開一扇門，在某個(gè)地方關(guān)上燈光和停止，Bob必須遵循相同的行動(dòng)清單并停在同一個(gè)地方。最后，你可以想象，這個(gè)簡(jiǎn)單的環(huán)境的原始任務(wù)是在房間里的一個(gè)燈點(diǎn)亮：

這些任務(wù)由Alice設(shè)計(jì)，迫使Bob學(xué)習(xí)與環(huán)境的互動(dòng)。而且Alice和Bob有其獨(dú)特的獎(jiǎng)勵(lì)功能：如果Bob在最短的時(shí)間內(nèi)完成，Bob就會(huì)得到回報(bào)；而當(dāng)Bob花費(fèi)更多的時(shí)間，同時(shí)能夠?qū)崿F(xiàn)目標(biāo)時(shí)，Alice就會(huì)得到回報(bào)。這些策略之間的相互作用允許他們“自動(dòng)構(gòu)建探索課程”。

他們?cè)谛请H爭(zhēng)霸的上測(cè)試了這個(gè)想法，沒有敵人打架。“目標(biāo)任務(wù)是建造海事單位。為此，代理必須遵循具體的操作順序：（i）礦工與工人；（ii）積累足夠的礦物質(zhì)供應(yīng)，建造軍營(yíng)。（iii）軍營(yíng)一旦完成后，將海洋單位列入其中。代理可以訓(xùn)練新的工人來(lái)進(jìn)行更快的采礦，或者建造供應(yīng)倉(cāng)庫(kù)以容納更多的單元。經(jīng)過200個(gè)步驟，代理為每個(gè)海軍建造+1。

“由于完全匹配游戲狀態(tài)幾乎是不可能的，Bob的成功只是基于游戲狀態(tài)，包括每種類型（包括建筑物）的單位數(shù)量和積累的礦物資源。所以Bob的自我發(fā)揮的目的是在盡可能短的時(shí)間內(nèi)與Alice一起制造盡可能多的單位和礦物。在這種情況下，Self-Play真的有助于加速學(xué)習(xí)過程，并且更好地融合Reinforce +一個(gè)更簡(jiǎn)單的預(yù)訓(xùn)練的基準(zhǔn)方法：

請(qǐng)注意，情節(jié)沒有考慮到預(yù)訓(xùn)練策略所花費(fèi)的時(shí)間。

總結(jié)：

無(wú)監(jiān)督學(xué)習(xí)雖然很難，但是衡量其表現(xiàn)更加困難。在Yoshua Bengio的話中：“我們不知道什么是好的代表，我們沒有一個(gè)很好的定義，即什么是正確的目標(biāo)函數(shù)，即使衡量一個(gè)系統(tǒng)在無(wú)人值守學(xué)習(xí)方面做得很好。”

事實(shí)上，幾乎所有在無(wú)監(jiān)督學(xué)習(xí)的模型中都使用監(jiān)督或強(qiáng)化學(xué)習(xí)來(lái)衡量這些特征是多么有用。

參考

1.[Bojanowski＆Joulin ICML17]?Piotr Bojanowski和Armand Joulin，Unsupervised learning by predicting the noise，ICML17。

2.[Bojanowski et al。arXiv17]?Piotr Bojanowski，Armand Joulin，David Lopez-Paz和Arthur Szlam，Optimizing the latent space of generative networks，arXiv17。

3.[Jaderberg et al。ICLR17]?Max Jaderberg，Volodymyr Mnih，Wojciech Marian Czarnecki，Tom Schaul，Joel Z Leibo，David Silver和Koray Kavukcuoglu，Reinforcement learning with unsupervised auxiliary tasks，ICLR17。

4.[Lopez-Paz et al。CVPR17]?David Lopez-Paz，西伯利亞西哈拉，Soumith Chintalah，BernhardSch?lkopf和LéonBottou，Discovering causal signals in images，CVPR17。

5.[Louizos et al。NIPS17]?Christos Louizos，Uri Shalit，Joris Mooij，David Sontag，Richard Zemel和Max Welling，Causal effect inference with deep latent-variable models，NIPS17。

6.[Matiisen et al。arXiv17]?Tambet Matiisen，Avital Oliver，Taco Cohen和John Schulman，teacher-student curriculum learning，arXiv17。

7.[Sukhbaatar et al。arXiv17]?Sainbayar Sukhbaatar，Zeming Lin，Ilya Kostrikov，Gabriel Synnaeve和Arthur Szlam，Intrinsic motivation and automatic curricula via asymmetric self-play，arXiv17。

8.[Peters et al。JRSS15]?Jonas Peters，PeterBühlmann和Nicolai Meinshausen，Causal inference using invariant prediction: identification and confidence intervals，皇家統(tǒng)計(jì)學(xué)會(huì)雜志17。

本文由北郵@愛可可-愛生活老師推薦，@阿里云云棲社區(qū)組織翻譯。

文章原標(biāo)題《In search of the missing signals》

作者：Giorgio patrini 任職于UvA-Bosch DELTA實(shí)驗(yàn)室（阿姆斯特丹深度學(xué)習(xí)技術(shù)）的博士后研究員

博客：http://giorgiopatrini.org/

譯者：袁虎?審閱：主題曲哥哥

文章為簡(jiǎn)譯，更為詳細(xì)的內(nèi)容，請(qǐng)查看原文

總結(jié)

以上是生活随笔為你收集整理的2017上半年无监督特征学习研究成果汇总的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇： Mac上NVM 安装与使用教程
下一篇： Github每日精选（第66期）：擦图老

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

2017上半年无监督特征学习研究成果汇总

總結(jié)