日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

2017上半年无监督特征学习研究成果汇总

發(fā)布時(shí)間:2024/3/26 编程问答 50 豆豆
生活随笔 收集整理的這篇文章主要介紹了 2017上半年无监督特征学习研究成果汇总 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

更多深度文章,請(qǐng)關(guān)注:https://yq.aliyun.com/cloud


特征學(xué)習(xí)在無(wú)監(jiān)督學(xué)習(xí)方式下的趨勢(shì):回歸到多元學(xué)習(xí)的隨機(jī)目標(biāo),利用因果關(guān)系來(lái)表征視覺(jué)特征,以及在強(qiáng)化學(xué)習(xí)中,通過(guò)輔助控制任務(wù)增加目標(biāo),并通過(guò)自發(fā)進(jìn)行預(yù)訓(xùn)練。從未標(biāo)記的數(shù)據(jù)中學(xué)到很多東西,似乎我們只用標(biāo)簽撇去了它的表面。

在這篇文章中,我將向你展示,2017年無(wú)監(jiān)督學(xué)習(xí)領(lǐng)域發(fā)生了什么變化。

無(wú)監(jiān)督學(xué)習(xí)是機(jī)器學(xué)習(xí)中長(zhǎng)期存在的挑戰(zhàn),它被認(rèn)為是人工智能的重要組成部分。在沒(méi)有標(biāo)簽的數(shù)據(jù)中有很多信息,我們并沒(méi)有完全的使用它,而值得注意的是,大腦的學(xué)習(xí)機(jī)理大多是無(wú)監(jiān)督的學(xué)習(xí)方式。

為了模擬人腦的終極目標(biāo),無(wú)監(jiān)督學(xué)習(xí)成為了很多研究人員的研究熱點(diǎn)。接下來(lái)我們就介紹一些近期無(wú)監(jiān)督學(xué)習(xí)的成果。

第一個(gè)成果:多元學(xué)習(xí)的隨機(jī)目標(biāo)

Unsupervised learning by predicting the noise[BojanowskiJoulin ICML17]這篇論文,今年在ICML中排名第一。想法如下:從超球體采樣均勻的隨機(jī)向量,數(shù)值為數(shù)據(jù)點(diǎn)的數(shù)量級(jí)。這些將成為回歸目標(biāo)的替代者。事實(shí)上,通過(guò)以最小化損失進(jìn)行監(jiān)督式學(xué)習(xí),在深層卷積網(wǎng)絡(luò)中學(xué)習(xí)視覺(jué)特征,可以將圖像與隨機(jī)向量相匹配。大致過(guò)程如圖所示:


特別地,在訓(xùn)練過(guò)程網(wǎng)絡(luò)參數(shù)的梯度下降交替之間,將偽目標(biāo)重新分配給不同的圖像,以便最小化損失函數(shù)。這里是ImageNet的視覺(jué)特征的結(jié)果;他們都是在ImageNet上訓(xùn)練AlexNet的結(jié)果,左邊是目標(biāo),右邊是提出無(wú)監(jiān)督的方法。


在論文中探討的轉(zhuǎn)移學(xué)習(xí),似乎是最先進(jìn)的。但為什么要這樣工作呢?因?yàn)樯窠?jīng)網(wǎng)絡(luò)正在學(xué)習(xí)一個(gè)新的特征空間,這是一種隱含的多元學(xué)習(xí)。通過(guò)混合分配進(jìn)行優(yōu)化可能是至關(guān)重要的,因?yàn)椴涣计ヅ鋵⒉辉试S將類似圖像映射給彼此。此外,網(wǎng)絡(luò)必須作為信息瓶頸(information bottleneck)。否則,在無(wú)限容量的情況下,模型將簡(jiǎn)單地學(xué)習(xí)一個(gè)不知情的1對(duì)1圖像到噪聲圖(Noise map)。

第二個(gè)成果:因果關(guān)系的重要性

Discovering causal signals in images[Lopez-Paz et alCVPR17]我從同LéonBottou鼓舞人心的談話中發(fā)現(xiàn)了第二個(gè)成果:looking for missing signal,接下來(lái)要介紹的是他們的WGAN。這里的討論重點(diǎn)是關(guān)于因果關(guān)系。但在談?wù)撝?#xff0c;讓我們?cè)倩匾幌?#xff0c;看看因果關(guān)系。

如果你站在機(jī)器學(xué)習(xí)視角中去了解因果關(guān)系,你會(huì)很快得出結(jié)論:整個(gè)領(lǐng)域在其基礎(chǔ)上缺少一些相當(dāng)重要的東西。我們創(chuàng)造了一個(gè)完整的解決行業(yè)問(wèn)題的方法,那就是只考慮相關(guān)性,聯(lián)想和預(yù)測(cè)只是考慮訓(xùn)練數(shù)據(jù)中的相關(guān)性,但這在許多情況下不會(huì)起到真正的作用。如果我們能夠在學(xué)習(xí)決策中考慮上因果關(guān)系的模型會(huì)不會(huì)有所好轉(zhuǎn)?基本上,我們可以避免卷積網(wǎng)絡(luò)告訴我們,圖片中的動(dòng)物是獅子,因?yàn)楸尘帮@示了的Savanna(美國(guó)東南部的大草原,有獅子)。


許多人正在努力實(shí)現(xiàn)這一想法。這篇論文旨在通過(guò)實(shí)驗(yàn)驗(yàn)證“圖像數(shù)據(jù)集的高階統(tǒng)計(jì)信息可以告知因果關(guān)系”。更準(zhǔn)確地說(shuō),作者猜測(cè),對(duì)象特征和反效應(yīng)特征是密切相關(guān)的,反之亦然,上下文特征和因果特征不一定相關(guān)。上下文特征給出了背景,而對(duì)象特征是通常在圖像數(shù)據(jù)集中的邊界框內(nèi),分別是大草原和獅子的鬃毛。

因果特征是導(dǎo)致圖像中對(duì)象存在的原因,而抗因素特征是由圖像中對(duì)象的存在產(chǎn)生的”在我們的例子中,一個(gè)因果關(guān)系確實(shí)是Savanna的視覺(jué)模式,而一個(gè)反作用的特征將是獅子的鬃毛。

他們是如何進(jìn)行實(shí)驗(yàn)的?首先,我們需要訓(xùn)練一個(gè)檢測(cè)器作為因果方向。這個(gè)想法是基于以前的許多工作,實(shí)驗(yàn)表明“加性因果模型”可能會(huì)在關(guān)于因果關(guān)系方向的觀察數(shù)據(jù)中留下統(tǒng)計(jì)學(xué)意義,這反過(guò)來(lái)可以通過(guò)研究高階矩來(lái)檢測(cè)。(如果這些聽(tīng)起來(lái)很陌生,我建議你閱讀本文的參考資料)。這個(gè)想法是學(xué)習(xí)如何通過(guò)神經(jīng)網(wǎng)絡(luò)來(lái)捕獲這個(gè)統(tǒng)計(jì)軌跡,該神經(jīng)網(wǎng)絡(luò)的任務(wù)是區(qū)分因果/反效應(yīng)。

訓(xùn)練這種網(wǎng)絡(luò)的唯一方法就是對(duì)關(guān)于因果關(guān)系的事實(shí)進(jìn)行標(biāo)注。這些數(shù)據(jù)集中并不多。但事實(shí)是,這些數(shù)據(jù)可以很容易地合成,通過(guò)采樣變量原因-效應(yīng)和指示方向進(jìn)行人工標(biāo)注。

第二,兩個(gè)版本的圖像,無(wú)論是對(duì)象還是背景消隱,都被標(biāo)準(zhǔn)的深度殘留網(wǎng)絡(luò)特征化。一些對(duì)象和上下文被設(shè)計(jì)在這些特征之上,作為圖像是否可能是關(guān)于對(duì)象或其上下文的信號(hào)。


最后我們可以將對(duì)象和上下文與形象中的因果關(guān)系或反作用關(guān)聯(lián)起來(lái)。

通過(guò)實(shí)驗(yàn)證明了上述猜想,這個(gè)實(shí)驗(yàn)意味著圖像中的因果關(guān)系實(shí)際上與對(duì)象及其上下文之間的差異有關(guān)。結(jié)果有希望開(kāi)辟新的研究途徑,因?yàn)楦玫囊蚬较虻乃惴ㄔ谠瓌t上將有助于學(xué)習(xí)在數(shù)據(jù)分布發(fā)生變化時(shí)更好的學(xué)習(xí)特征。因果關(guān)系應(yīng)該有助于通過(guò)了解數(shù)據(jù)生成過(guò)程來(lái)構(gòu)建更強(qiáng)大的功能。

第三個(gè)成果:使用無(wú)監(jiān)督輔助任務(wù)的強(qiáng)化學(xué)習(xí)

Reinforcement learning with unsupervised auxiliary tasks[Jaderberg et alICLR17]根據(jù)現(xiàn)行的標(biāo)準(zhǔn),本文顯得有點(diǎn)古老,因?yàn)樵谧珜懕疚臅r(shí)已經(jīng)有60篇引文。實(shí)際上有一些更新的工作已經(jīng)建立在這個(gè)想法上。我選擇這一點(diǎn),正是因?yàn)樗哂行路f的洞察力,而不是基于它來(lái)討論更復(fù)雜的方法。

第三個(gè)成果主角是強(qiáng)化學(xué)習(xí)。強(qiáng)化學(xué)習(xí)的研究人員的主要困難是稀缺/延遲獎(jiǎng)勵(lì)。那么為什么不通過(guò)引入輔助任務(wù)來(lái)增強(qiáng)訓(xùn)練信號(hào)呢?當(dāng)然,??偽獎(jiǎng)勵(lì)必須與真正的目標(biāo)相關(guān),而不是借助于人類的監(jiān)督。

這篇論文的建議是:通過(guò)輔助任務(wù)的性能總和來(lái)增加目標(biāo)函數(shù)(最大化的獎(jiǎng)勵(lì))。實(shí)際上,將有一些模型近似于主要策略和其他完成附加任務(wù)的策略;那些模型分享他們的一些參數(shù),例如底層可以共同學(xué)習(xí)來(lái)模擬原始的視覺(jué)特征。代理函數(shù)必須提高其在獎(jiǎng)勵(lì)方面的績(jī)效,從而提高輔助任務(wù)的表現(xiàn)。

論文探討的輔助任務(wù):首先,像素控制。代理學(xué)習(xí)是一個(gè)單獨(dú)的策略,以最大限度地改變輸入圖像上的像素網(wǎng)格。理由是“感知流中的變化通常與環(huán)境中的重要事件相對(duì)應(yīng)”,因此學(xué)習(xí)控制變化是有益的。二,功能控制。訓(xùn)練該代理以預(yù)測(cè)策略/價(jià)值網(wǎng)絡(luò)的某些中間層中的隱藏單元的激活值。這個(gè)想法很有意思,因?yàn)榇淼牟呗曰騼r(jià)值網(wǎng)絡(luò)會(huì)提取與環(huán)境相關(guān)的高級(jí)功能的任務(wù)。三,獎(jiǎng)勵(lì)預(yù)測(cè)。代理學(xué)會(huì)預(yù)測(cè)即將來(lái)臨的回報(bào)。這三個(gè)輔助任務(wù)可以通過(guò)從之前的代理經(jīng)驗(yàn)的緩沖區(qū)經(jīng)驗(yàn)回放學(xué)習(xí)。縮短其他細(xì)節(jié),整個(gè)方法稱為UNREAL。它被應(yīng)用在Atari游戲和Labyrint上學(xué)習(xí)更快更好的策略。


論文中的最終洞察力在于對(duì)像素控制的有效性,而不是簡(jiǎn)單地預(yù)測(cè)具有重建損耗或像素輸入變化的像素。它們都可以被視為視覺(jué)自我監(jiān)督學(xué)習(xí)的形式。“學(xué)習(xí)重建只是導(dǎo)致更快的初步學(xué)習(xí),實(shí)際上會(huì)使得最后的成績(jī)更糟。我們的假設(shè)是,輸入重建會(huì)損害最終的表現(xiàn),因?yàn)樗鼘⑦^(guò)多的重點(diǎn)放在重建視覺(jué)輸入的不相關(guān)部分而不是視覺(jué)線索的獎(jiǎng)勵(lì)。


第四個(gè)成果:Self-Play讓學(xué)習(xí)過(guò)程更快

Intrinsic motivation and automatic curricula via asymmetric self-play[Sukhbaatar et alarXiv17].我想強(qiáng)調(diào)的最后一個(gè)論文與上述強(qiáng)化學(xué)習(xí)輔助任務(wù)的想法有關(guān)。但是,至關(guān)重要的是,不是明確地調(diào)整目標(biāo)函數(shù),而是在一定程度上對(duì)代理進(jìn)行了訓(xùn)練,以完成自我優(yōu)化,更簡(jiǎn)單的自動(dòng)完成任務(wù)。

通過(guò)將代理分解為“兩個(gè)獨(dú)立的頭腦”,Alice 和Bob,建立了Self-Play的初始階段。論文作者提出Self-Play,假設(shè)環(huán)境必須可逆或重新設(shè)定為初始狀態(tài)。在這種情況下,Alice執(zhí)行一個(gè)任務(wù),并要求Bob執(zhí)行相同操作,等到Alice最終達(dá)到我們可觀察的狀態(tài)。例如,Alice可以拿起鑰匙,打開(kāi)一扇門,在某個(gè)地方關(guān)上燈光和停止,Bob必須遵循相同的行動(dòng)清單并停在同一個(gè)地方。最后,你可以想象,這個(gè)簡(jiǎn)單的環(huán)境的原始任務(wù)是在房間里的一個(gè)燈點(diǎn)亮:


這些任務(wù)由Alice設(shè)計(jì),迫使Bob學(xué)習(xí)與環(huán)境的互動(dòng)。而且Alice和Bob有其獨(dú)特的獎(jiǎng)勵(lì)功能:如果Bob在最短的時(shí)間內(nèi)完成,Bob就會(huì)得到回報(bào);而當(dāng)Bob花費(fèi)更多的時(shí)間,同時(shí)能夠?qū)崿F(xiàn)目標(biāo)時(shí),Alice就會(huì)得到回報(bào)。這些策略之間的相互作用允許他們“自動(dòng)構(gòu)建探索課程”。

他們?cè)谛请H爭(zhēng)霸的上測(cè)試了這個(gè)想法,沒(méi)有敵人打架。“目標(biāo)任務(wù)是建造海事單位。為此,代理必須遵循具體的操作順序:(i)礦工與工人;(ii)積累足夠的礦物質(zhì)供應(yīng),建造軍營(yíng)。(iii)軍營(yíng)一旦完成后,將海洋單位列入其中。代理可以訓(xùn)練新的工人來(lái)進(jìn)行更快的采礦,或者建造供應(yīng)倉(cāng)庫(kù)以容納更多的單元。經(jīng)過(guò)200個(gè)步驟,代理為每個(gè)海軍建造+1。


由于完全匹配游戲狀態(tài)幾乎是不可能的,Bob的成功只是基于游戲狀態(tài),包括每種類型(包括建筑物)的單位數(shù)量和積累的礦物資源。所以Bob的自我發(fā)揮的目的是在盡可能短的時(shí)間內(nèi)與Alice一起制造盡可能多的單位和礦物。在這種情況下,Self-Play真的有助于加速學(xué)習(xí)過(guò)程,并且更好地融合Reinforce +一個(gè)更簡(jiǎn)單的預(yù)訓(xùn)練的基準(zhǔn)方法:


請(qǐng)注意,情節(jié)沒(méi)有考慮到預(yù)訓(xùn)練策略所花費(fèi)的時(shí)間。

總結(jié):

無(wú)監(jiān)督學(xué)習(xí)雖然很難,但是衡量其表現(xiàn)更加困難。在Yoshua Bengio的話中:“我們不知道什么是好的代表,我們沒(méi)有一個(gè)很好的定義,即什么是正確的目標(biāo)函數(shù),即使衡量一個(gè)系統(tǒng)在無(wú)人值守學(xué)習(xí)方面做得很好。”

事實(shí)上,幾乎所有在無(wú)監(jiān)督學(xué)習(xí)的模型中都使用監(jiān)督或強(qiáng)化學(xué)習(xí)來(lái)衡量這些特征是多么有用。

參考

1.[BojanowskiJoulin ICML17]?Piotr BojanowskiArmand JoulinUnsupervised learning by predicting the noiseICML17

2.[Bojanowski et alarXiv17]?Piotr BojanowskiArmand JoulinDavid Lopez-PazArthur SzlamOptimizing the latent space of generative networksarXiv17

3.[Jaderberg et alICLR17]?Max JaderbergVolodymyr MnihWojciech Marian CzarneckiTom SchaulJoel Z LeiboDavid SilverKoray KavukcuogluReinforcement learning with unsupervised auxiliary tasksICLR17

4.[Lopez-Paz et alCVPR17]?David Lopez-Paz,西伯利亞西哈拉,Soumith ChintalahBernhardSch?lkopfLéonBottouDiscovering causal signals in imagesCVPR17

5.[Louizos et alNIPS17]?Christos LouizosUri ShalitJoris MooijDavid SontagRichard ZemelMax WellingCausal effect inference with deep latent-variable modelsNIPS17

6.[Matiisen et alarXiv17]?Tambet MatiisenAvital OliverTaco CohenJohn Schulmanteacher-student curriculum learningarXiv17

7.[Sukhbaatar et alarXiv17]?Sainbayar SukhbaatarZeming LinIlya KostrikovGabriel SynnaeveArthur SzlamIntrinsic motivation and automatic curricula via asymmetric self-playarXiv17

8.[Peters et alJRSS15]?Jonas PetersPeterBühlmannNicolai MeinshausenCausal inference using invariant prediction: identification and confidence intervals,皇家統(tǒng)計(jì)學(xué)會(huì)雜志17

本文由北郵@愛(ài)可可-愛(ài)生活老師推薦,@阿里云云棲社區(qū)組織翻譯。

文章原標(biāo)題《In search of the missing signals

作者:Giorgio patrini 任職于UvA-Bosch DELTA實(shí)驗(yàn)室(阿姆斯特丹深度學(xué)習(xí)技術(shù))的博士后研究員

博客:http://giorgiopatrini.org/

譯者:袁虎?審閱:主題曲哥哥

文章為簡(jiǎn)譯,更為詳細(xì)的內(nèi)容,請(qǐng)查看原文


總結(jié)

以上是生活随笔為你收集整理的2017上半年无监督特征学习研究成果汇总的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。