Deep Learning论文笔记之(八)Deep Learning最新综述
Deep Learning論文筆記之(八)Deep Learning最新綜述
zouxy09@qq.com
http://blog.csdn.net/zouxy09
?
?????? 自己平時(shí)看了一些論文,但老感覺(jué)看完過(guò)后就會(huì)慢慢的淡忘,某一天重新拾起來(lái)的時(shí)候又好像沒(méi)有看過(guò)一樣。所以想習(xí)慣地把一些感覺(jué)有用的論文中的知識(shí)點(diǎn)總結(jié)整理一下,一方面在整理過(guò)程中,自己的理解也會(huì)更深,另一方面也方便未來(lái)自己的勘察。更好的還可以放到博客上面與大家交流。因?yàn)榛A(chǔ)有限,所以對(duì)論文的一些理解可能不太正確,還望大家不吝指正交流,謝謝。
?
???????? 本文的論文來(lái)自:
Bengio, Y., Courville, A., & Vincent, P. (2012).Representation Learning: A Review and New Perspectives。
???????? 這是一篇Deep Learning比較新的綜述。但是好長(zhǎng)啊,讀完了也好多不懂,之前邊讀邊翻譯了前面兩節(jié),先擺上來(lái)。后面有時(shí)間再更新后續(xù)的了。另外,因?yàn)樗接邢?#xff0c;有些地方翻譯和理解可能有錯(cuò)誤,還望大家指正。謝謝。
?????? 另外,對(duì)于Deep Learning這里有個(gè)reading-list,感覺(jué)很不錯(cuò)。大家可以參考里面的list來(lái)學(xué)習(xí)。
http://deeplearning.net/reading-list/
?
???????? 下面是自己對(duì)其中的一些知識(shí)點(diǎn)的理解:
????????
《Representation Learning: A Review and New Perspectives》
摘要
?????? 機(jī)器學(xué)習(xí)算法的成功主要取決于數(shù)據(jù)的表達(dá)data representation。我們一般猜測(cè),不同的表達(dá)會(huì)混淆或者隱藏或多或少的可以解釋數(shù)據(jù)不同變化的因素。盡管特定的領(lǐng)域知識(shí)可以有助于設(shè)計(jì)或者選擇數(shù)據(jù)的表達(dá),但通過(guò)一般的先驗(yàn)知識(shí)來(lái)學(xué)習(xí)表達(dá)也是有效的。而且,人工智能AI的要求也迫使我們?nèi)ふ腋鼜?qiáng)大的特征學(xué)習(xí)算法去實(shí)現(xiàn)這些先驗(yàn)知識(shí)。
?????? 本文回顧非監(jiān)督特征學(xué)習(xí)和深度學(xué)習(xí)領(lǐng)域的一些近期工作,包括概率模型的發(fā)展、自動(dòng)編碼機(jī)、流行學(xué)習(xí)和深度網(wǎng)絡(luò)。通過(guò)這些分析,可以激發(fā)我們?nèi)ニ伎家恍╅L(zhǎng)久以來(lái)尚未解決的問(wèn)題,例如如何學(xué)習(xí)好的表達(dá)?如何選擇適合的目標(biāo)函數(shù)以便于計(jì)算表達(dá)?還有表達(dá)學(xué)習(xí)、密度估計(jì)和流行學(xué)習(xí)他們之間是否具有一定的幾何聯(lián)系?
?
1、介紹
?????? 眾所周知,機(jī)器學(xué)習(xí)方法的性能很大程度上取決于數(shù)據(jù)表達(dá)(或者特征)的選擇。也正是因?yàn)檫@個(gè)原因,為了使得機(jī)器學(xué)習(xí)算法有效,我們一般需要在數(shù)據(jù)的預(yù)處理和變換中傾注大部分的心血。這種特征工程的工作非常重要,但它費(fèi)時(shí)費(fèi)力,屬于勞動(dòng)密集型產(chǎn)業(yè)。這種弊端揭露了目前的學(xué)習(xí)算法的缺點(diǎn):在提取和組織數(shù)據(jù)的區(qū)分性信息中顯得無(wú)能為力。特征工程是一種利用人的智慧和先驗(yàn)知識(shí)來(lái)彌補(bǔ)上述缺點(diǎn)的方法。為了拓展機(jī)器學(xué)習(xí)的適用范圍,我們需要降低學(xué)習(xí)算法對(duì)特征工程的依賴(lài)性。這樣,就可以更快的構(gòu)建新的應(yīng)用,更重要的是,在人工智能AI領(lǐng)域邁出了一大步。人工智能最基本的能力就是能理解這個(gè)世界(understand the world around us)。我們覺(jué)得,只有當(dāng)它能學(xué)會(huì)如何辨別和解開(kāi)在觀測(cè)到的低級(jí)感知數(shù)據(jù)中隱含的解釋性因素時(shí)才能達(dá)到這個(gè)目標(biāo)。
?????? 這篇文章主要講述表達(dá)學(xué)習(xí)representation learning的,或者說(shuō)學(xué)習(xí)一種數(shù)據(jù)的表達(dá)使得提取對(duì)構(gòu)建分類(lèi)器或者預(yù)測(cè)器有用的信息更加容易。以概率模型為例,一個(gè)好的表達(dá)總能捕捉觀測(cè)輸入數(shù)據(jù)的隱含解釋性因素的后驗(yàn)概率分布。一個(gè)好的表達(dá)作為監(jiān)督預(yù)測(cè)器的輸入也是有用的。在表達(dá)學(xué)習(xí)的那么多不同的方法中,本文主要聚焦在深度學(xué)習(xí)方法:通過(guò)組合多個(gè)非線(xiàn)性變換,以得到更抽象和最終更有效的表達(dá)。這里,我們綜述這個(gè)快速發(fā)展的領(lǐng)域,其中還會(huì)強(qiáng)調(diào)當(dāng)前進(jìn)展中的特定問(wèn)題。我們認(rèn)為,一些基本問(wèn)題正在驅(qū)動(dòng)該領(lǐng)域的研究。特別的,是什么導(dǎo)致一種表達(dá)優(yōu)于另一種表達(dá)?我們應(yīng)該怎樣去計(jì)算它的表達(dá),換句話(huà)來(lái)說(shuō)就是,我們應(yīng)該如何進(jìn)行特征提取?還有就是為了學(xué)習(xí)好的表達(dá),怎樣的目標(biāo)函數(shù)才是適合的?
?
2、我們?yōu)槭裁匆P(guān)心表達(dá)學(xué)習(xí)?
???????? 表達(dá)學(xué)習(xí)(亦被江湖稱(chēng)作深度學(xué)習(xí)或者特征學(xué)習(xí))已經(jīng)在機(jī)器學(xué)習(xí)社區(qū)開(kāi)辟了自己的江山,成為學(xué)術(shù)界的一個(gè)新寵。在一些頂尖會(huì)議例如NIPS和ICML中都有了自己的正規(guī)軍(研究它的workshops),今年(2013)還專(zhuān)門(mén)為它搞了一個(gè)新的會(huì)議,叫ICLR(International Conference on Learning Representations),可見(jiàn)它在學(xué)術(shù)界得到的寵愛(ài)招人紅眼。盡管depth(深度)是這個(gè)神話(huà)的一個(gè)主要部分,但其他的先驗(yàn)也不能被忽視,因?yàn)橛袝r(shí)候,先驗(yàn)知識(shí)會(huì)為表達(dá)的學(xué)習(xí)獻(xiàn)上一臂之力,畫(huà)上點(diǎn)睛之筆,更容易地學(xué)習(xí)更好的表達(dá),這在下一章節(jié)中將會(huì)詳細(xì)討論。在表達(dá)學(xué)習(xí)有關(guān)的學(xué)術(shù)活動(dòng)中最迅速的進(jìn)展就是它在學(xué)術(shù)界和工業(yè)界都得到了經(jīng)驗(yàn)性的顯著性的成功。下面我們簡(jiǎn)單的聚焦幾點(diǎn)。
?
2.1、Speech Recognition and Signal Processing語(yǔ)音識(shí)別與信號(hào)處理
???????? 語(yǔ)音也是神經(jīng)網(wǎng)絡(luò)誕生時(shí)其最早的一個(gè)應(yīng)用之一,例如卷積(或者時(shí)延)神經(jīng)網(wǎng)絡(luò)(Bengio在1993年的工作)。當(dāng)然,在HMM在語(yǔ)音識(shí)別成功之后,神經(jīng)網(wǎng)絡(luò)也相對(duì)沉寂了不少。到現(xiàn)在,神經(jīng)網(wǎng)絡(luò)的復(fù)活、深度學(xué)習(xí)和表達(dá)學(xué)習(xí)的運(yùn)用在語(yǔ)音識(shí)別領(lǐng)域可謂大展拳腳,重展雄風(fēng),在一些學(xué)術(shù)派和工業(yè)派人士(Dahlet al., 2010; Deng et al., 2010; Seide et al., 2011a; Mohamedet al., 2012; Dahl et al., 2012; Hinton et al., 2012)的努力下取得了突破性的成果,使得這些算法得到更大范圍的應(yīng)用,并且實(shí)現(xiàn)了產(chǎn)品化。例如,微軟在2012年發(fā)布了它們的語(yǔ)音識(shí)別MAVIS (Microsoft Audio Video Indexing Service)系統(tǒng)的一個(gè)新版本,這個(gè)版本是基于深度學(xué)習(xí)的(Seide et al., 2011a)。對(duì)比現(xiàn)有的一直保持領(lǐng)先位置的高斯混合模型的聲學(xué)建模方法,他們?cè)谒膫€(gè)主要的基準(zhǔn)測(cè)試集中把錯(cuò)誤率降低了30%左右(例如在RT03S數(shù)據(jù)庫(kù)中從 27.4%的錯(cuò)誤率降到18.5%)。在2012年,Dahl等人再次書(shū)學(xué)神話(huà),他在一個(gè)小的大詞匯量語(yǔ)音識(shí)別基準(zhǔn)測(cè)試集中(Bing移動(dòng)商業(yè)搜索數(shù)據(jù)庫(kù),語(yǔ)音長(zhǎng)40小時(shí))的錯(cuò)誤率降到16%與23%之間。
???????? 表達(dá)學(xué)習(xí)算法還被應(yīng)用的音樂(lè)方面上,在四個(gè)基準(zhǔn)測(cè)試集中,比當(dāng)前領(lǐng)先的polyphonic transcription (Boulanger-Lewandowskiet al., 2012)在錯(cuò)誤率上取得了5%到30%之間的提升。深度學(xué)習(xí)還贏得了MIREX (Music Information Retrieval)音樂(lè)信息檢索競(jìng)賽。例如2011年的音頻標(biāo)注audio tagging上(Hamelet al., 2011)。
?
2.2、Object Recognition目標(biāo)識(shí)別
???????? 在2006年,深度學(xué)習(xí)的開(kāi)始,主要聚焦在MNIST手寫(xiě)體圖像分類(lèi)問(wèn)題上(Hinton et al.,2006; Bengioet al., 2007),它沖擊了SVMs在這個(gè)數(shù)據(jù)集的霸主地位(1.4%的錯(cuò)誤率)。最新的記錄仍被深度網(wǎng)絡(luò)占據(jù)著:Ciresanet al.(2012)聲稱(chēng)他在這個(gè)任務(wù)的無(wú)約束版本(例如,使用卷積架構(gòu))的錯(cuò)誤率是0.27%,為state-of-the-art。而Rifaiet al.(2011c)在MNIST的knowledge-free版本中保持著0.81%的錯(cuò)誤率,為state-of-the-art。
???????? 在最近幾年,深度學(xué)習(xí)將其目光從數(shù)字識(shí)別移到自然圖像的目標(biāo)識(shí)別,而最新的突破是在ImageNet數(shù)據(jù)庫(kù)中把領(lǐng)先的26.1%的錯(cuò)誤率拉低到15.3% (Krizhevskyet al., 2012)。
?
2.3、Natural Language Processing自然語(yǔ)言處理
???????? 除了語(yǔ)音識(shí)別,深度學(xué)習(xí)在自然語(yǔ)言處理中也有很多應(yīng)用。symbolic 數(shù)據(jù)的分布式表達(dá)由Hinton在1986年引入,在2003年由Bengio等人在統(tǒng)計(jì)語(yǔ)言模型中得到第一次的發(fā)展,稱(chēng)為神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型neural net language models (Bengio,2008)。它們都是基于學(xué)習(xí)一個(gè)關(guān)于每個(gè)單詞的分布式表達(dá),叫做word embedding。增加一個(gè)卷積架構(gòu),Collobertet al.(2011)開(kāi)發(fā)了一個(gè)SENNA系統(tǒng),它在語(yǔ)言建模、部分語(yǔ)音標(biāo)記、chunking(節(jié)點(diǎn)識(shí)別)、語(yǔ)義角色標(biāo)記和句法分解中共享表達(dá)。SENNA接近或者超于目前的在這些任務(wù)中的當(dāng)前領(lǐng)先方法。但它比傳統(tǒng)的預(yù)測(cè)器要簡(jiǎn)單和快速。學(xué)習(xí)word embeddings可以以某種方式與學(xué)習(xí)圖像表達(dá)結(jié)合,這樣就可以聯(lián)系文本和圖像。這個(gè)方法被成功運(yùn)用到谷歌的圖像搜索上,利用大量的數(shù)據(jù)來(lái)建立同一空間中圖像與問(wèn)題之間的映射(Weston et al.,2010)。在2012年,Srivastava等將其拓展到更深的多模表達(dá)。
???????? 神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型也被通過(guò)在隱層中增加recurrence來(lái)改進(jìn)(Mikolovet al., 2011)。改進(jìn)效果比當(dāng)下領(lǐng)先的平滑n-gram語(yǔ)言模型不僅在復(fù)雜度上降低,還降低了語(yǔ)音識(shí)別的錯(cuò)誤率(因?yàn)檎Z(yǔ)言模型是語(yǔ)音識(shí)別系統(tǒng)的一個(gè)重要組成部分)。這個(gè)模型還被應(yīng)用到統(tǒng)計(jì)機(jī)器翻譯上面 (Schwenk et al., 2012; Leet al., 2013),改進(jìn)了復(fù)雜度和BLEU分?jǐn)?shù)。遞歸自動(dòng)編碼機(jī)Recursive auto-encoders(產(chǎn)生recurrent網(wǎng)絡(luò))在全句釋義檢測(cè)full sentenceparaphrase detection上也達(dá)到了現(xiàn)有的領(lǐng)先水平,是以前技術(shù)的兩倍F1分?jǐn)?shù)(Socheret al., 2011a)。表達(dá)學(xué)習(xí)還用到了單詞歧義消除word sense disambiguation上 (Bordeset al., 2012),取得了準(zhǔn)確率從67.8%到 70.2%的提升。最后,它還被成功運(yùn)用到sentimentanalysis (Glorotet al., 2011b; Socher et al., 2011b)上,并超越現(xiàn)有技術(shù)。
?
2.4、Multi-Task and Transfer Learning, Domain Adaptation多任務(wù)和遷移學(xué)習(xí),域自適應(yīng)
??????? 遷移學(xué)習(xí)(傳統(tǒng)的機(jī)器學(xué)習(xí)假設(shè)訓(xùn)練數(shù)據(jù)與測(cè)試數(shù)據(jù)服從相同的數(shù)據(jù)分布。如果我們有了大量的、在不同分布下的訓(xùn)練數(shù)據(jù),完全丟棄這些數(shù)據(jù)也是非常浪費(fèi)的。如何合理的利用這些數(shù)據(jù)就是遷移學(xué)習(xí)主要解決的問(wèn)題。遷移學(xué)習(xí)可以從現(xiàn)有的數(shù)據(jù)中遷移知識(shí),用來(lái)幫助將來(lái)的學(xué)習(xí)。遷移學(xué)習(xí)(Transfer Learning)的目標(biāo)是將從一個(gè)環(huán)境中學(xué)到的知識(shí)用來(lái)幫助新環(huán)境中的學(xué)習(xí)任務(wù)。)是指一個(gè)學(xué)習(xí)算法可以利用不同學(xué)習(xí)任務(wù)之間的共性來(lái)共享統(tǒng)計(jì)的優(yōu)點(diǎn)和在任務(wù)間遷移知識(shí)。如下面的討論,我們假設(shè)表達(dá)學(xué)習(xí)算法具有這樣的能力,因?yàn)樗梢詫W(xué)習(xí)到能捕捉隱含因素的子集的表達(dá),這個(gè)子集是對(duì)每個(gè)特定的任務(wù)相關(guān)的。如圖1所示。這個(gè)假設(shè)被很多的經(jīng)驗(yàn)性結(jié)果所驗(yàn)證,并且展現(xiàn)了表達(dá)學(xué)習(xí)在遷移學(xué)習(xí)場(chǎng)合中同樣具有優(yōu)異的能力。
??????? 圖1:表達(dá)學(xué)習(xí)發(fā)現(xiàn)了隱含的解釋性因素(中間隱層紅色的點(diǎn))的示意圖。一些解釋了輸入(半監(jiān)督設(shè)置),一些解釋了每個(gè)任務(wù)的目標(biāo)。因?yàn)檫@些子集間會(huì)重疊,所以會(huì)貢獻(xiàn)統(tǒng)計(jì)的優(yōu)點(diǎn),利于generalization泛化。
???????? 給人印象深刻的是在2011年的兩個(gè)遷移學(xué)習(xí)的挑戰(zhàn)賽,都被表達(dá)學(xué)習(xí)算法奪魁。首先在由ICML2011一個(gè)workshop舉辦的Transfer Learning Challenge中,由無(wú)監(jiān)督逐層預(yù)訓(xùn)練方法unsuper-vised layer-wise pre-training (Bengio, 2011; Mesnil et al.,2011)奪得。第二個(gè)挑戰(zhàn)賽同年舉辦,被Goodfellow et al. (2011)奪得。在相關(guān)的domain adaptation方面,目標(biāo)保持不變,但輸入分布會(huì)改變(Glorot et al., 2011b; Chen et al., 2012)。在多任務(wù)學(xué)習(xí)方面multi-task learning,表達(dá)學(xué)習(xí)同樣表現(xiàn)出了其獨(dú)特的優(yōu)越性(Krizhevskyet al.(2012); Collobertet al.(2011)),因?yàn)樗梢栽谌蝿?wù)間共享因素。
?
未完待續(xù)……
總結(jié)
以上是生活随笔為你收集整理的Deep Learning论文笔记之(八)Deep Learning最新综述的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: Deep Learning论文笔记之(七
- 下一篇: 别的程序员是怎么读你的简历的