當(dāng)前位置：首頁 >

【Yoshua Bengio 亲自解答】机器学习 81 个问题及答案（最全收录）

發(fā)布時間：2023/12/13 44 豆豆

生活随笔收集整理的這篇文章主要介紹了【Yoshua Bengio 亲自解答】机器学习 81 个问题及答案（最全收录）小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

本文轉(zhuǎn)自：http://mp.weixin.qq.com/s?__biz=MzI3MTA0MTk1MA==&mid=401958262&idx=1&sn=707f228cf5779a31f0933af903516ba6&scene=1&srcid=0121zzdeFPtgoRoEviZ3LZDG#rd

譯者：張巨巖 ?王婉婷 ?李宏菲 ?戴秋池

這是?Quora 的最新節(jié)目，針對特定話題進行系列的問答。如果你不了解 Quora，可以把它看作美國版的知乎，不過里面大咖云集，奧巴馬、Elon Musk、Bill Gates 都會在上面回答問題。?

這是針對特定話題的問答系列，而有什么能比機器學(xué)習(xí)更適合作為開頭的第一個話題呢？機器學(xué)習(xí)無疑是今天最炙手可熱的技術(shù)之一，在過去幾年間實現(xiàn)了深度學(xué)習(xí)等許多進展，而許多企業(yè)也將注意力和資源投向了這一領(lǐng)域。

這個 Quora 機器學(xué)習(xí)問答系列將會邀請眾多這個領(lǐng)域的大神來答疑解惑。

這次參加的是?Yoshua Bengio，電腦科學(xué)家，畢業(yè)于麥吉爾大學(xué)，在MIT和AT&T貝爾實驗室做過博士后研究員，自1993年之后就是蒙特利爾大學(xué)任教，與 Yann LeCun、 Geoffrey Hinton并稱為“深度學(xué)習(xí)三巨頭”，也是神經(jīng)網(wǎng)絡(luò)復(fù)興的主要的三個發(fā)起人之一，在預(yù)訓(xùn)練問題、為自動編碼器降噪等自動編碼器的結(jié)構(gòu)問題和生成式模型等等領(lǐng)域做出重大貢獻。他早先的一篇關(guān)于語言概率模型的論文開創(chuàng)了神經(jīng)網(wǎng)絡(luò)做語言模型的先河，啟發(fā)了一系列關(guān)于 NLP 的文章，進而在工業(yè)界產(chǎn)生重大影響。此外，他的小組開發(fā)了 Theano 平臺。

現(xiàn)在仍然在完善嘉賓名單，不過已經(jīng)有另外6位也確認(rèn)了會參加這次活動。

包括：

吳恩達

百度首席科學(xué)家，斯坦福大學(xué)計算機科學(xué)系和電子工程系副教授，人工智能實驗室主任。吳恩達是人工智能和機器學(xué)習(xí)領(lǐng)域國際上最權(quán)威的學(xué)者之一，同時也是在線教育平臺Coursera的聯(lián)合創(chuàng)始人。曾與谷歌頂級工程師合作建立全球最大的“神經(jīng)網(wǎng)絡(luò)”——“谷歌大腦”。

2014年5月16日，吳恩達加入百度，擔(dān)任百度公司首席科學(xué)家，負(fù)責(zé)百度研究院的領(lǐng)導(dǎo)工作，尤其是Baidu Brain計劃。

Pedro Domingos

Pedro Domingos是華盛頓大學(xué)的教授，他是機器學(xué)習(xí)領(lǐng)域的領(lǐng)頭研究者，并且因研究出能夠進行不確定推理的馬爾可夫邏輯網(wǎng)絡(luò)而著名。Domingos 獲得了里斯本技術(shù)大學(xué)的本科和碩士學(xué)位，然后在加利福尼亞大學(xué)爾灣分校拿到了碩士和博士學(xué)位。在IST做了兩年的助理教授后。它與1999年加入華盛頓大學(xué)并且現(xiàn)在是一名教授。

Kevin Murphy

谷歌總部研究科學(xué)家，在谷歌研究人工智能、機器學(xué)習(xí)、計算機視覺與自然語言理解。他于2011年加入谷歌，此前是加拿大溫哥華英屬哥倫比亞大學(xué)的計算機科學(xué)和統(tǒng)計學(xué)終生副教授。他已發(fā)表80多篇會議或期刊論文，是《機器學(xué)習(xí)：概率視角》的作者，該教材長達1100頁，由麻省理工出版社2012年出版，并獲得2013 DeGroot 統(tǒng)計科學(xué)最佳書籍獎。?

Isabelle Guyon

咨詢公司ClopiNet（為模式識別、機器學(xué)習(xí)、統(tǒng)計數(shù)據(jù)分析、以及數(shù)據(jù)挖掘提供咨詢服務(wù)）的創(chuàng)始人兼總裁，紐約大學(xué)健康信息學(xué)和生物信息學(xué)中心（CHIBI）客座教授。她在機器學(xué)習(xí)領(lǐng)域是國際知名的學(xué)者，與Drs Vapnick和Boser一起發(fā)明了核SVM分類器，也發(fā)明了基于SVM的特征選擇方法RFE。

Alex Smola

卡耐基梅隆大學(xué)教授，Marianas Lab 公司的 CEO。研究方向包括以下幾個方面：

算法的可擴展性: 這意味著推動算法達到互聯(lián)網(wǎng)一般的規(guī)模，使的他們在不同機器分布，設(shè)計出融合和修改模型來適應(yīng)這些要求。

Kernels方法是線性方法非線性化和非參數(shù)畫的有效手段。我的研究興趣包括支持向量機(SVM)，高斯過程和條件隨機場。

統(tǒng)計建模: 貝葉斯非參數(shù)是解決許多建模問題的好方法。很多時候綜合運用Kernels方法和可擴展性可以得到讓人滿意的方案。

Thorsten Joachims

康奈爾大學(xué)計算機科學(xué)系和信息科學(xué)系教授。他于2001年完成博士學(xué)位后加入該系。主要研究方向是機器學(xué)習(xí)、支持向量機、數(shù)據(jù)學(xué)習(xí)理論、文本分類、文本挖掘等。他是?ACM Fellow, AAAI Fellow 和 Humboldt Fellow。

我們非常期待你能提出問題、參與這個活動，也非常激動于能夠為分享這個奇妙的領(lǐng)域的知識做出貢獻。

論文下載

回復(fù)?0121?按照本文中標(biāo)注的序號如Q1a,Q1b來下載相應(yīng)的論文

以下是81個問題：

Q1：在理解深度學(xué)習(xí)工作原理的道路上，我們已經(jīng)前進了多遠(yuǎn)？

與有些人的想法相反，我相信我們對于深度學(xué)習(xí)的基礎(chǔ)已經(jīng)有了不錯的基本理解，例如：

我們理解了卷積結(jié)構(gòu)和遞歸結(jié)構(gòu)的分布式表征、深度、以及元素與函數(shù)空間中的偏好（或者更通俗的說法是，先驗，priors）相對應(yīng)，并且我們有理論來解釋為何其中一些偏好可以帶來重要的（有時候是指數(shù)級增長的）統(tǒng)計優(yōu)勢（這意味著可以用更少的數(shù)據(jù)達到相似的準(zhǔn)確度）；我的書中有更多的對于最近一些論文的詳細(xì)描述，我最喜歡的一篇是NIPS?2014的“關(guān)于深度神經(jīng)網(wǎng)絡(luò)線性區(qū)域的數(shù)量（On?the?Number?of?Linear?Regions?of?Deep?Neural?Networks）”（Q1a）。過去和現(xiàn)在，研究人員對于各種深度學(xué)習(xí)模型的解釋力也做了許多工作。

我們更好地理解了為什么訓(xùn)練深度網(wǎng)絡(luò)時涉及到的優(yōu)化問題可能并不像我們先前以為的那樣棘手，在某種意義上來說，絕大多數(shù)的局部最小值可能實際上都與非常好的解決方案相對應(yīng)。這個問題上有兩篇很好的論文：NIPS?2014的“識別和攻擊高維度非凸優(yōu)化的鞍點問題（Identifying?and?attacking?the?saddle?point?problem?in?high-dimensional?non-convex?optimization）”（Q1b）以及AISTATS?2015的“多層網(wǎng)絡(luò)的損失面（The?loss?surface?of?multilayer?networks）”（Q1c）。

不過，當(dāng)然，我們需要更多更多的理論！許多時候我們都會處于無法理解實驗結(jié)果的境地里。

Q2：你怎么看強化學(xué)習(xí)？它是像Yann?LeCun說的那樣，是畫龍點睛的一筆嗎？

如果我們只使用強化信號來引導(dǎo)學(xué)習(xí)，那么我同意Yann?LeCun的說法，它是畫龍點睛的最后一筆。糟糕的是：當(dāng)使用的全局強化信號并不是對于特征的已知可微函數(shù)時（這種事經(jīng)常發(fā)生），擴大能根據(jù)這個信號而訓(xùn)練的隱藏單元的數(shù)量（或是行動維度）就會有嚴(yán)重的問題。行動的樣例數(shù)量、隨機樣本數(shù)量、或是嘗試次數(shù)，隨著單元數(shù)量的增加，可能不得不至少以線性的速度增長，才能在質(zhì)量的信度分配方面達到和反向傳播技術(shù)差不多的水平。如果行動空間很大，這會是一個很麻煩的問題。然而，就像在Yann提到這件事時說的那樣，我們在做強化學(xué)習(xí)的時候也應(yīng)該做非監(jiān)督式學(xué)習(xí)。那么它就會變得更具可信度，能夠在大規(guī)模的環(huán)境下發(fā)揮作用。

Q3：理解大腦對于理解深度學(xué)習(xí)來說有多重要？反過來呢？

就像許多早期從事神經(jīng)網(wǎng)絡(luò)研究的人（包括我的同事Geoff?Hinton和Yann?LeCun）一樣，我相信，當(dāng)我們思考我們對于大腦已經(jīng)知道了什么的時候，我們會有不錯的機會來從中學(xué)習(xí)一些對于搭建AI來說有用的東西，并且這一點隨著神經(jīng)科學(xué)家們收集了越來越多的大腦數(shù)據(jù)而變得越來越確定。這個信念與相反的想法也是有聯(lián)系的——為了真正理解為何大腦讓我們擁有智能，我們需要對于大腦中發(fā)生的事構(gòu)建一個“機器的學(xué)習(xí)”的解釋，也就是說，搭建一個計算的、數(shù)學(xué)的模型來解釋我們的大腦是怎樣學(xué)習(xí)如此復(fù)雜的東西、又怎樣表現(xiàn)出如此成功的信度分配的。為了驗證這個解釋，我們應(yīng)該能夠運行一種機器學(xué)習(xí)算法，它擁有從神經(jīng)生物學(xué)中提取出來的基本原則，但它沒有必要理解這些原則（但是可能有必要將這些原則在它的“大腦”中實現(xiàn)，或是為它提供一些我們與生俱來的知識）。就我所知的而言，我們對于大腦怎樣做一些反向傳播技術(shù)做得很好的事情還沒有一個可信的機器學(xué)習(xí)解釋——也就是說，還沒有明白，腦內(nèi)神經(jīng)元突觸應(yīng)該怎樣產(chǎn)生變化，才能讓作為一個整體的大腦對于世界有更好的理解、做出更好的行為。這是這些日子經(jīng)常在我腦海中徘徊不去的話題之一。

Q4：有沒有深度學(xué)習(xí)永遠(yuǎn)不能學(xué)會的東西？

這取決于你說的深度學(xué)習(xí)指什么。如果你指的是現(xiàn)在我們知道的算法，那么答案很有可能是“是的”。但是，毫無疑問，隨著這個領(lǐng)域的研究不斷探索，深度學(xué)習(xí)還在繼續(xù)演化，很明顯深度學(xué)習(xí)的應(yīng)用范圍有不斷擴大的趨勢。神經(jīng)網(wǎng)絡(luò)曾經(jīng)在模式識別問題上非常成功，音素識別和物體識別都是很好的例子。然而，我們可以看到越來越多神經(jīng)網(wǎng)絡(luò)方面的工作正在靠近傳統(tǒng)的AI領(lǐng)域，比如推理、知識表征、以及操作符號數(shù)據(jù)。我相信，這些近期的工作只不過是冰山一角，但是當(dāng)然我的手里并沒有水晶球來做預(yù)言。如果我們未來對于深度學(xué)習(xí)的定義中，包括了以受神經(jīng)啟發(fā)的算法來復(fù)制所有人類認(rèn)知能力的能力，那么“這個領(lǐng)域中沒有深度學(xué)習(xí)學(xué)不會的事情”的假設(shè)就是相當(dāng)合理的。不過，到時候，可能會有一些人類永遠(yuǎn)不能學(xué)會的任務(wù)；對于這些任務(wù)，很容易得出結(jié)論：沒有機器能完美地完成這些任務(wù)，因為用來訓(xùn)練的樣本數(shù)量太局限了。

Q5：你對于Kaggle和其他機器學(xué)習(xí)競賽有什么看法？

就像許多其他東西一樣，適量的機器學(xué)習(xí)競賽是很好的。激勵一些愿意與人競爭的學(xué)生（特別是新學(xué)生）是一件很棒的事。這讓他們真正地學(xué)習(xí)如何操作機器學(xué)習(xí)，只讀論文你是學(xué)不到這些的。基準(zhǔn)測試也扮演著重要的角色，讓我們的注意力能集中到超越此前最新技術(shù)的全新方法上。但是它們不應(yīng)該被用來作為拋棄那些敗于基準(zhǔn)測試的研究的理由。如果有什么東西在一個基準(zhǔn)測試上表現(xiàn)很好，這可能意味著我們應(yīng)該向它投以一些關(guān)注，但是相反的推論卻并不正確。你可能有一個偉大的想法，但是你做出的方法現(xiàn)在表現(xiàn)得卻不是很好，因為有一個討厭的細(xì)節(jié)問題壓抑了它的表現(xiàn)——而這可能在下一年就能被修正過來。這些日子，機器學(xué)習(xí)評論者們對于實驗結(jié)果的比較被賦予了過多的重要性。我相信這是某種懶惰。查閱比較結(jié)果的表格的確比在實際上嘗試?yán)斫庹撐闹械乃枷胍唵蔚枚?#xff0c;局限在它給出的可能性里也的確更為輕松。

Q6：深度學(xué)習(xí)研究將去往何方？

研究從定義上來說就是在不斷探索的，這意味著（a）我們不知道什么能起效，以及（b）我們需要探索許多途徑，我們需要整個科學(xué)社區(qū)在研究方向上有很大的差異性。所以我只能告訴你我目前的直覺，我在哪些地方看到吸引了我直覺的重要挑戰(zhàn)和機遇。這里是其中的一些：

非監(jiān)督式學(xué)習(xí)是關(guān)鍵，我們現(xiàn)在的做法還并不正確（我和其他人在這一方面寫過、說過很多觀點試圖糾正）

深度學(xué)習(xí)研究可能會繼續(xù)擴張，從原本的傳統(tǒng)模式識別任務(wù)擴張到AI的全部任務(wù)，包括符號操作、記憶、規(guī)劃和推理。這對于完整地理解自然語言和與人對話（也就是說，通過圖靈測試）來說將會非常重要。相似的是，我們見證著深度學(xué)習(xí)正在延伸到強化學(xué)習(xí)、控制、以及機器人學(xué)的領(lǐng)域，而這只不過是一個開始。

對于AI，我們可能仍然需要再獲得許多知識，更好地理解大腦并嘗試找到大腦運作的機器學(xué)習(xí)解釋。

最大似然可以加以改進，當(dāng)在復(fù)雜的高維度領(lǐng)域中學(xué)習(xí)時（非監(jiān)督式學(xué)習(xí)和結(jié)構(gòu)化輸出情景中興起的情況）它不一定是最佳的目標(biāo)。

基于深度學(xué)習(xí)的AI（不只是消費者產(chǎn)品）將會很大地受益于計算力的大幅提高，這可能意味著出現(xiàn)專門的硬件；這是因為，AI需要大量關(guān)于世界的知識（然后對它們進行推理），這就需要用非常大量的數(shù)據(jù)來訓(xùn)練大型模型，這一切都需要比我們現(xiàn)在使用的高得多的計算力。

其他見我對于Q12“開放的研究領(lǐng)域”問題的答案。

Q7：2015年你讀過的哪一篇機器學(xué)習(xí)研究論文最讓你感到激動？

沒有哪一篇能夠完全勝過其他任何論文，而我意識到了跟人們說“不同的研究員會對不同的科學(xué)貢獻印象深刻”，所以我對于如下進展的選取是非常主觀的：

批量正態(tài)化的論文很激動人心，因為它已經(jīng)對于訓(xùn)練無數(shù)架構(gòu)都產(chǎn)生了影響，并且已經(jīng)被作為標(biāo)準(zhǔn)來采用。

梯型網(wǎng)絡(luò)的論文很激動人心，因為它讓非監(jiān)督式學(xué)習(xí)的想法重獲新生（文中提到的是特別有趣的堆疊式消噪自動編碼器），能夠與直白的監(jiān)督式學(xué)習(xí)能夠共同競爭——特別是在半監(jiān)督式的情境中。

今年，生成式對抗網(wǎng)絡(luò)——LAPGAN和DCGAN——的論文，通過讓人印象深刻的方式、真正地提高了對于圖像的生成式建模的標(biāo)準(zhǔn)，瞬間讓這種方法脫穎而出，為非監(jiān)督式學(xué)習(xí)在去年的快速進展貢獻良多。它們能與另一個基于變分自動編碼器的深度生成式建模——包括去年早些時候那篇讓人印象深刻的DRAW論文——相媲美。

去年，有不計其數(shù)的論文用了基于內(nèi)容的注意力機制。我看著它從我們的使用注意力機制的神經(jīng)機器翻譯開始，之后是神經(jīng)圖靈機（再之后是端到端記憶網(wǎng)絡(luò)），還有許多對于這種處理方式激動人心的用法——比如生成對于圖片的描述和菜做數(shù)據(jù)結(jié)構(gòu)（我特別喜歡Pointer網(wǎng)絡(luò)和其他關(guān)于可微數(shù)據(jù)結(jié)構(gòu)操作的論文，包括堆棧、序列、教機器閱讀和理解等等）。所以這種架構(gòu)的設(shè)備已經(jīng)到來…

還有許多其他的我不能準(zhǔn)確地評價的論文…

Q8：一個人怎樣才能開始機器學(xué)習(xí)？/對于一個熟悉機器學(xué)習(xí)基本概念的人來說，開始接觸深度學(xué)習(xí)時有什么不錯的資源？

首先你需要在數(shù)學(xué)和計算機科學(xué)方面有適當(dāng)?shù)幕A(chǔ)。深度學(xué)習(xí)方面，你可以看看MIT出版社的《深度學(xué)習(xí)》（現(xiàn)在可以在線閱讀，最終MIT出版社會將它印刷成冊）第1部分，重溫一下數(shù)學(xué)和計算機科學(xué)的知識、或是看一下數(shù)學(xué)和計算機科學(xué)中哪些領(lǐng)域與深度學(xué)習(xí)最有關(guān)系。然后你需要了解一些機器學(xué)習(xí)方面的知識（有一些不錯的書，比如Chris?Bishop寫的和Kevin?Murphy寫的，視頻的話比如有吳恩達的coursera課程和Hugo?Larochelle的神經(jīng)網(wǎng)絡(luò)授課視頻，你也可以從《深度學(xué)習(xí)》這本書的第5章中獲得許多基本知識的總結(jié)）。然后你需要開始練習(xí)，也就是說，親手編寫一些學(xué)習(xí)算法、用數(shù)據(jù)來訓(xùn)練它們——比如說，嘗試參加一些Kaggle競賽。試著成為優(yōu)化超參數(shù)和選擇恰當(dāng)模型方面的專家吧。同時，繼續(xù)保持閱讀。如果你對于深度學(xué)習(xí)感興趣，我的書《深度學(xué)習(xí)》中第3章將會為你使用大多數(shù)常見的算法打下基礎(chǔ)。到那時，你應(yīng)該有了足夠的背景知識、能夠以穩(wěn)定的頻率來閱讀勾起你興趣的論文了。

自我推銷真是非常厚臉皮的一件事，但是我們真的為這本書做了許多努力…?Ian?Goodfellow、Aaron?Courville和我寫了一本為你們準(zhǔn)備的書)

它叫做《深度學(xué)習(xí)》，應(yīng)該很快就會出現(xiàn)在市面上，不過你已經(jīng)可以在網(wǎng)站上（http://www.deeplearningbook.org/）閱讀所有的草稿了。

Q9：你怎么看OpenAI？

我覺得在我所在的社區(qū)中有另一個玩家加入是一件很棒的事，它在市場和研究人員的文化兩方面的影響力進一步推動著業(yè)界實驗室轉(zhuǎn)向重視長遠(yuǎn)的目標(biāo)，讓基礎(chǔ)研究不只由學(xué)界來做。我強烈地相信，如果能以幾十年的度量來考慮，如果我們對于短期目標(biāo)沒有那么關(guān)注、沒有那么貪婪（試圖立刻利用起來賺錢），我們本來是可以在探索AI的道路上走到更遠(yuǎn)的地方的。

Q10：目前對于深度學(xué)習(xí)的炒作是否言過其實？

如果它是炒作，它就會夸大實際情況。這種夸張是存在，我見到過。當(dāng)有人認(rèn)為人工智能的研究比實際情況更加接近人類表現(xiàn)時，這就是炒作，而這種想法通常是依據(jù)人們在電影或科幻作品中見到的AI場景而得出的心理印象。

在我的生涯中，我經(jīng)常會覺得，通常情況下，人類很貪婪。我們在短期目標(biāo)中會花費很多精力，如果我們在長期目標(biāo)中持續(xù)這種狀態(tài)的話，我們會收獲更多。而這意味著要接受很多事實：在AI領(lǐng)域還有很多根本性挑戰(zhàn)；我們不知道還要用多久才能解決這些挑戰(zhàn)（我們也有可能永遠(yuǎn)無法成功解決）。我感覺人類有一種存在于本性中的傾向：更傾向于“利用”知識，而非“探索”收集更多的知識。這種傾向?qū)τ谖覀兊淖嫦葋碚f是很有意義的，因為他們每天都面臨危險。于是成功存活下來就變成了一種短期顧慮。公司想要快速賺錢。投資人對它也有需求。政府官員想要在其四年任期結(jié)束之前加快經(jīng)濟發(fā)展，而且他們也受到公司和非常富有的人的影響而被敗壞，進而他們根本不在乎這對于人們的長期回報。學(xué)術(shù)界應(yīng)該擔(dān)負(fù)起擔(dān)憂長遠(yuǎn)未來的責(zé)任，但是他們經(jīng)常被卷入到政府和公司的短期想法中（他們?yōu)檠芯刻峁┵Y金），或者陷入——“出版或死亡”和“短期增加研究強度以提高基準(zhǔn)測試的表現(xiàn)”——的邏輯中而無法自拔。

這即是說，沒有被夸大的是：深度學(xué)習(xí)已經(jīng)有很好的表現(xiàn)（經(jīng)過適當(dāng)?shù)脑O(shè)計并得到所需的數(shù)據(jù)后），而且也有可能被轉(zhuǎn)成重大經(jīng)濟影響和增長。我們可能在某些非常有限的領(lǐng)域中找到了接近人類表現(xiàn)的方式，或者說，在之前技術(shù)基礎(chǔ)上提升很多以至于有非常明顯的經(jīng)濟價值。但是這距離人類級別的智能還非常遙遠(yuǎn)。

Q11：今年（2016）會有深度學(xué)習(xí)夏令營嗎？

描述：Yoshua?Bengio、Roland?Memisevic和Yann?LeCun2015年在蒙特利爾舉辦過一個深度學(xué)習(xí)夏令營。在蒙特利奧或其他地方會有相似的事情發(fā)生嗎？

在2016年8月應(yīng)該會有。靜待通知。

Q12：在深度學(xué)習(xí)方面有哪些開放的研究領(lǐng)域？

這補充了之前的Q5。

每個研究人員對此都有看法，這很好。這里是我的想法：

非監(jiān)督學(xué)習(xí)真的會發(fā)揮巨大作用

生成模型會根據(jù)一系列變異度很大的自然圖像和聲音來生成簡潔的圖像和聲音

半監(jiān)督學(xué)習(xí)會發(fā)揮作用，即使被標(biāo)記的數(shù)據(jù)集不微小；

學(xué)習(xí)數(shù)據(jù)到空間的雙向轉(zhuǎn)換方式，空間中的變量是相互糾纏的（或者大部分獨立的）

將（迭代式）推理帶入到深度學(xué)習(xí)中來處理隱性變量的非因子后驗概率

在我們的模型中引入更多推理能力

大規(guī)模自然語言理解和知識表征

序列數(shù)據(jù)長距離相關(guān)性模型并讓學(xué)習(xí)器在多時間尺度上發(fā)現(xiàn)框架性的表征方式

更好地理解（并修補）有時會出現(xiàn)的優(yōu)化問題（例如，在非監(jiān)督學(xué)習(xí)或長距離 ? 相關(guān)性遞歸網(wǎng)絡(luò)中）

訓(xùn)練將計劃（能夠理解假設(shè)分析場景，也許隨機地通過一個生成式組件）作 ? 為一部分學(xué)習(xí)步驟的模型（而且還能做決定）

將強化學(xué)習(xí)擴展到較大的活動空間中

最大似然定理有一些已知的不足（例如在訓(xùn)練和測試情況下有錯配現(xiàn) ? ? ? ? 象），而且我們需要繞過它們（也許連最大似然定理一起拋棄）

彌合深度學(xué)習(xí)和生物學(xué)之前的空白

加速理論理解深度學(xué)習(xí)（優(yōu)化問題是一方面，表征或統(tǒng)計方面也需要更多的理 ?論）

研究特殊的硬件以支持離線訓(xùn)練模型來開發(fā)消費者產(chǎn)品，但這從科學(xué)的角度看可能更重要，訓(xùn)練更大的模型來捕捉更多的知識，進而為人類級別的AI研究開辟道路

很多應(yīng)用還欠開發(fā)，我特別想看到在健康方面的研究工作（如缺失值等特定問題，還有通過遷移學(xué)習(xí)利用小型研究數(shù)據(jù)）。

Q13：有了Torch和谷歌發(fā)布的TensorFlow對工業(yè)的強大支持，你對Theano和其使用壽命的看法是什么？

TensorFlow對Theano有很大的威脅，它們建立在相同的基本想法中，即構(gòu)建并操作一個計算圖，以符號形式來表征數(shù)字計算。然而，TensorFlow需要更多的工作，而且谷歌看起來很想提高它，并讓它成為更有用的工具。這要看事情以后的發(fā)展，學(xué)生和研究人員如何選擇。我對以下兩者感到很自豪：我們Theano的完成情況，和谷歌相似地構(gòu)建了一些更好的東西，但是Theano對于我來說不是一種信仰。我喜歡對開放而有前瞻性地研究具有高級而靈活的探索能力的工具。

Q14：深度學(xué)習(xí)能像在視覺和語音領(lǐng)域中那樣在自然語言處理領(lǐng)域中取得成功嗎？

我當(dāng)然相信會這樣！最近幾年的進步暗示了進步幅度會更快。例如在神經(jīng)機器翻譯中的相關(guān)工作，這方面我知道的比較清楚。我認(rèn)為我們在來年會看到更多，而深度學(xué)習(xí)也在逐步朝著自然語言理解中存在的諸多根本性挑戰(zhàn)方向發(fā)展。

Q15：深度學(xué)習(xí)與機器學(xué)習(xí)有怎樣的不同？

深度學(xué)習(xí)是機器學(xué)習(xí)的一部分。在機器學(xué)習(xí)中有很多概念和想法，而深度學(xué)習(xí)是從這個更大集合中抽離出的一部分。很多大學(xué)曾有一段時間不再教學(xué)深度學(xué)習(xí)，但是現(xiàn)在，在某些地方，受到關(guān)于深度學(xué)習(xí)的炒作影響后，這種局勢可能會逆轉(zhuǎn)，而這并不好：學(xué)生繼續(xù)學(xué)習(xí)經(jīng)過幾十年機器學(xué)習(xí)研究而得出的不同想法和概念是很重要的，這提供了更加廣闊的思路，也為新發(fā)現(xiàn)打開大門。

Q16：你為什么會在神經(jīng)網(wǎng)絡(luò)（而非其他機器學(xué)習(xí)領(lǐng)域）上花費很多精力？

自從我研究生的研究后，我就預(yù)感神經(jīng)網(wǎng)絡(luò)會再次崛起，這受到了David?Rumelhart和Geoff?Hinton強有力想法的影響。在90年代后期，當(dāng)機器學(xué)習(xí)社區(qū)開始轉(zhuǎn)向神經(jīng)網(wǎng)絡(luò)后，這些預(yù)感讓我開始探索神經(jīng)網(wǎng)絡(luò)繞過維度詛咒的方式和原因，我當(dāng)初（現(xiàn)在也）認(rèn)為是機器學(xué)習(xí)的關(guān)鍵挑戰(zhàn)。這就引出了我和我兄弟Samy的第一篇文章（在1999年NIPS上，《Modeling?High-Dimensional?Discrete?Data?with?Multi-Layer?Neural?Networks》（Q16a）），后來有了更好的工作（依據(jù)相同的想法）《neural?language?model》（Q16b）（在2000年NIPS大會上，和Pascal?Vincent一起）。這個工作之后，我將這些想法擴展到連續(xù)空間和流形研究中，以及非參數(shù)流行方法是如何受到特定形式的維度詛咒的干擾。這最終引出2005年NIPS的文章《Non-Local?Manifold?Tangent?Learning》（Q16c）和2005年NIPS的文章《The?Curse?of?Highly?Variable?Functions?for?Local?Kernel?Machines》（Q16d）（和Olivier?Delalleau、Nicolas?Le?Roux一起）。這一系列思想軌跡刺激了人們研究——利用深度來增加繞過維度詛咒的可能性——的積極性，最終在2006年的NIPS上有了這篇文章《Greedy?Layer-Wise?Training?of?Deep?Networks》（Q16e），和Hugo?Larochelle一起用RBMs和自動編碼器來訓(xùn)練深度網(wǎng)絡(luò)，這一工作受到Geoff?Hinton早期對RBMs研究的啟發(fā)。有了Geoff小組和Yann小組那年的文章，終于有了第一篇文章，表明可以訓(xùn)練深層網(wǎng)絡(luò)（實際上比淺層網(wǎng)絡(luò)性能好），這也是對深度的強調(diào)和神經(jīng)網(wǎng)絡(luò)重生的開端…

Q17：一個沒有PhD學(xué)位（但是從技術(shù)上來說）自學(xué)過ML的人如何向你這樣的人證明他已經(jīng)足夠優(yōu)秀來為你工作？

見我回答的《對于正在進入機器學(xué)習(xí)領(lǐng)域的年輕研究人員，你有什么建議？》（Q18）和《對于一個熟悉機器學(xué)習(xí)基本概念的人來說，那些是開始學(xué)習(xí)深度學(xué)習(xí)的好資源？》和《某人應(yīng)該如何開始學(xué)習(xí)機器學(xué)習(xí)？》

Q18：對于正在進入機器學(xué)習(xí)領(lǐng)域的年輕研究人員，你有什么建議？

確定你在數(shù)學(xué)和計算機方面經(jīng)過了很強的訓(xùn)練（包括，實踐部分，如編程）。讀書，讀很多文獻，但這還不夠：你需要發(fā)展你的直觀理解，通過以下方式：（1）自己編寫很多學(xué)習(xí)算法，如嘗試重現(xiàn)文獻中的方法；（2）例如參加比賽或者在重現(xiàn)文獻中方法后進一步改善結(jié)果，從而學(xué)會去調(diào)試超參數(shù)（hyper-parameters）和探索（框架、目的函數(shù)等等）變異性。接著找人一起做頭腦風(fēng)暴，在探索和測試新創(chuàng)意時分享工作負(fù)擔(dān)。和已有的小組一起工作是一種理想方式，或者招募自己的學(xué)生與你一起工作，如果你是一個教職人員的話。

Q19：非監(jiān)督深度學(xué)習(xí)預(yù)訓(xùn)練有用嗎？何時有用？

非監(jiān)督預(yù)訓(xùn)練在自然語言處理中使用得很頻繁，例如當(dāng)我們使用非常大的文本語料庫來預(yù)訓(xùn)練詞匯的表征時，接著在小型標(biāo)記好的數(shù)據(jù)集上使用或微調(diào)這些預(yù)訓(xùn)練表征。然而，我們一直（從2008年和Hugo?Larochelle?一起寫作的ICML論文《Classification?using?Discriminative?Restricted?Boltzmann?Machines》開始）（Q19a）知道的是，結(jié)合監(jiān)督式和非監(jiān)督式方法來共同訓(xùn)練參數(shù)會更好。最近這類方法的成功應(yīng)用是《Ladder?Network》（Q19b）。

Q20：AI對人類有生存威脅嗎？

我們未來某天可能實現(xiàn)的這類能夠達到甚至超過人類表現(xiàn)的AI有很多不確定性。即使我站在樂觀主義的一方（因為這種不確定性），我們不能否認(rèn)存在這種可能：我們不想發(fā)生的事情發(fā)生了。這就是我簽下了未來生活公開信以開發(fā)一個穩(wěn)定而有益的AI的原因。

然而，請記住這種潛在威脅現(xiàn)在還離我們很遠(yuǎn)。媒體總喜歡夸大其詞來吸引注意力。這會妨礙AI研究。相反的，我們應(yīng)該鼓勵相應(yīng)領(lǐng)域的研究來更好的理解這些問題，進而如果某天出現(xiàn)一些事情要具體處理時，我們也能更好的準(zhǔn)備并開發(fā)對人類來說更安全的AI。

談到這里，我相信將媒體的注意力從AI帶來的長遠(yuǎn)角度科幻性質(zhì)的恐懼轉(zhuǎn)移到短期更具體的政治經(jīng)濟問題上是很重要的。但我們應(yīng)該提前考慮這些問題，而不是等到人類受到傷害（例如，失去工作）雖然會有少數(shù)幸運的人會變得超級富有而且有很大的權(quán)力。我們整體需要對如何利用AI帶來的進步做出英明抉擇，為全體利益著想而非少數(shù)。為了適應(yīng)科學(xué)技術(shù)帶給我們愈來愈強大的力量，叢林法則是不適用的：我們需要在個體和整體上都有英明的遠(yuǎn)見，這不僅是為了我們，也為了我們的后代。

Q21：你的書何時會上市嗎？

現(xiàn)在基本要看MIT出版社。內(nèi)容方面已經(jīng)完工了（而且網(wǎng)上也有。）我們正在等評論家的反饋（估計一周或一個月吧），接著MIT出版社可能需要一些時間安排出版的事情。可能要幾個月，總體來看，一年之內(nèi)很可能完工，之后會郵寄。如果你找到打印錯誤、錯誤或者缺失重要部分，現(xiàn)在是你為這本提出寶貴意見的絕佳機會！

Q22：你對只用一個學(xué)習(xí)算法解決問題是怎么看的？

這是一個很有意思的想法，而且有點像皮質(zhì)的功能，因為如果有必要的話，同樣的皮質(zhì)部分可以做其他部分的工作（即使每個區(qū)域由于初期的結(jié)構(gòu)部署而被安排好做特定工作）。這很有意思，因為如果存在一個核心學(xué)習(xí)算法（雖然可能涉及到一些概念）完成多種任務(wù)的話，那么這種算法很可能很強大而且很實用，更不用提還能提供有用的科學(xué)觀點。我認(rèn)為，它足以有趣以至于不找尋它的人是不正常的，萬一它存在呢。然而，大腦除了皮質(zhì)之外，還存在著其他部分，例如海馬區(qū)，有可能根據(jù)不同的算法學(xué)習(xí)并與皮質(zhì)交流，近期記憶網(wǎng)絡(luò)和神經(jīng)圖靈機的相關(guān)工作也暗示我們可以受益于多種不同類型的組件。另外，大腦也很有可能結(jié)合了非監(jiān)督學(xué)習(xí)和強化學(xué)習(xí)（后者有研究透徹的生物學(xué)證據(jù)）。

Q23：在學(xué)術(shù)界做深度學(xué)習(xí)研究與在產(chǎn)業(yè)界相比有哪些好處和挑戰(zhàn)？（為什么你是仍堅守在學(xué)術(shù)領(lǐng)域的為數(shù)不多的深度學(xué)習(xí)研究人員之一？）

據(jù)我所知：

好處:

為大眾的利益而工作的滿足感，為人類，而不是財富占有者或者投資人，在更加開放的環(huán)境中工作而沒有專利使用限制的困擾

?身邊會有很多聰明的研究生和博士后，下一代研究人員而且也會影響他們

?挑戰(zhàn):

?不得不花很多時間寫方案來獲得資金、在委員會中任職等

?只有訪問公開數(shù)據(jù)集的權(quán)利（但我認(rèn)為這其中有很多有趣的數(shù)據(jù)集）

?沒有大的工程團隊來開發(fā)大型系統(tǒng)

?沒有很多計算資源

然而，我必須承認(rèn)我在后兩件事情上做的很好，這要感謝我當(dāng)前接收到的（經(jīng)常從大學(xué)那里）慷慨的資金和贊助。我很慶幸我的大學(xué)高度珍視我的存在而且只限定我每年一次（除了學(xué)術(shù)休假）教學(xué)研究生課程，在過去的15年中。當(dāng)然這些只是我幸運地得到了這樣的環(huán)境。

Q24：你曾說過當(dāng)前機器學(xué)習(xí)算法的主要限制是它們學(xué)習(xí)需要太多的數(shù)據(jù)。你能詳細(xì)說明這一點嗎？

在孩子的前兩年生活中（甚至在學(xué)會語言之前），他們本質(zhì)上是通過看沒有被標(biāo)記的數(shù)據(jù)學(xué)習(xí)。孩子們在童年看到的自然語言比現(xiàn)在訓(xùn)練得出的最好的語音識別器和機器翻譯系統(tǒng)所需的文本數(shù)量要少得多。這種差距是指數(shù)級別的。為什么？人們似乎能夠更好的利用他們能夠得到的較少的數(shù)據(jù)集，而且我相信這是因為他們自己對周圍的世界建立了一個能夠捕捉因果關(guān)系的模型。這讓我們能夠預(yù)測在某些假定條件下什么會發(fā)生，即使這些條件與我們以往經(jīng)歷過的條件有明顯的不同。我從來沒有真實經(jīng)歷過車禍（例如），但是我的大腦可以充分的模擬它（并預(yù)見結(jié)果），進而我可以自動的做出計劃來規(guī)避這樣的不幸。所以未來還有很多事情需要我們發(fā)掘。

Q25：如何將深度學(xué)習(xí)應(yīng)用到時間序列預(yù)測上？

這有很多種可能性，但我會使用最先進的遞歸網(wǎng)絡(luò)（使用門控單元（gated?units）和很多層）在每個時間步中做出預(yù)測（這有利于未來垂直方面的一些應(yīng)用）。接著，用下一個觀測來更新RNN從而做出下一個預(yù)測。你可以預(yù)測一個值，可以是關(guān)于那個值的不確定性（例如用高斯對數(shù)似然），或者一個復(fù)雜密度（例如用混合模型），正如這篇文章《Generating?Sequences?With?Recurrent?Neural?Networks》（Q25a）。你也可以預(yù)測多個值，甚至是關(guān)于它的未來不確定性軌跡（通過預(yù)測關(guān)于軌跡點的一些協(xié)方差），正如這篇文章《Forecasting?Commodity?Contract?Spreads?with?Gaussian?Process》（Q25b）。如果你想要一個更穩(wěn)定的預(yù)測器，你可以使用絕對值（中位數(shù)）或者分位數(shù)預(yù)測器，例如這篇文章《Robust?Regression?with?Asymmetric?Heavy-Tail?Noise?Distributions》（Q25c）。

Q26：為什么非監(jiān)督學(xué)習(xí)很重要？深度學(xué)習(xí)在其中起什么作用？

深度學(xué)習(xí)其實是關(guān)于學(xué)習(xí)表征方式，這意味著學(xué)習(xí)有益于捕捉我們所關(guān)注的統(tǒng)計相關(guān)性的中間概念，特征或隱性變量。這些相關(guān)性來自于從輸入變量到輸出變量的監(jiān)督學(xué)習(xí)過程，或在變量的任何子集之間的非監(jiān)督學(xué)習(xí)過程。通常來說，監(jiān)督學(xué)習(xí)用于教電腦學(xué)會對解決特定任務(wù)很重要的中間概念（例如類別）。然而，我們看到監(jiān)督式深層網(wǎng)絡(luò)在它們的網(wǎng)絡(luò)層中可以發(fā)掘出有意義的中間概念。非監(jiān)督學(xué)習(xí)很相似，不同在于我們讓模型捕捉了所有變量之間可能的相關(guān)性，不區(qū)別輸入和輸出。用監(jiān)督學(xué)習(xí)來完成AI可能需要讓電腦從所有與這些概念有關(guān)的數(shù)據(jù)集中學(xué)會所有對我們很重要的概念。這不是人類的學(xué)習(xí)方式：是的，由于語言的存在，我們得到了一些闡明新概念的示例，但是我們觀察到的很多東西并沒有明確的標(biāo)記，至少一開始是這樣的。孩子們并沒有讓大人告訴他們每幅圖的每個像素是什么，或者每幅圖中的物體是什么，什么是語法結(jié)果，每句話中的每個單詞的確切意思是什么。我們從簡單的觀察中提取出大部分信息（可能通過“動作—感知”循環(huán)），而這就是非監(jiān)督學(xué)習(xí)的基本原理。我們希望深度非監(jiān)督學(xué)習(xí)將能夠發(fā)現(xiàn)（可能需要很少的標(biāo)記數(shù)據(jù)的幫助）所有的概念和事情發(fā)生的起因（一些被直接標(biāo)記好，一些沒有標(biāo)記），進而解釋我們看到的現(xiàn)象。所以我相信這個方向上的進步對實現(xiàn)AI有本質(zhì)性推動作用。而且我們都是這么想的：）

如果你仔細(xì)想想，科學(xué)家正在做非監(jiān)督學(xué)習(xí)：觀察世界，想出解釋某種現(xiàn)象的模型，收集更多觀察數(shù)據(jù)（雖然是有目的的）來測試它們，接著不斷的改進這種解釋世界運行原理的模型。然而我們確實從教育中得到了提升，因此像《curriculum?learning》（Q26a）文章中的想法也是必需的（正如我們見到過的一些機器學(xué)習(xí)任務(wù)）。

Q27：你對Max?Weling的論文《ML和統(tǒng)計是互補的嗎》是如何評價的？ML因為深度學(xué)習(xí)正在遠(yuǎn)離統(tǒng)計學(xué)嗎？

Max確實找到了深度學(xué)習(xí)成功的3個因素：（1）計算力；（2）大型數(shù)據(jù)集；（3）大型靈活的模型。我會加上一點：（4）明顯的偏向（偏愛函數(shù)空間或者貝葉斯方法）。深度網(wǎng)絡(luò)受益于一些對底層數(shù)據(jù)的附加假設(shè)，我在深度學(xué)習(xí)書和很多討論中提到過：多個潛在因子的假設(shè)（分布式表征，因果關(guān)系），因子組成的假設(shè)（深度），（在卷積網(wǎng)絡(luò)中）等方差和時間一致性的假設(shè)，（在遞歸網(wǎng)絡(luò)中的）時間恒定性，等等。雖然前三個因素屬于計算科學(xué)領(lǐng)域，但是最后的因素（也可能是最有趣的因素）明顯涉及到統(tǒng)計學(xué)的思想。我認(rèn)同Max的看法：不太可能解釋大型深度學(xué)習(xí)網(wǎng)絡(luò)中億萬計的參數(shù)，但是有可能理解這些網(wǎng)絡(luò)中直接或間接引入的先驗假設(shè)。然而，如果統(tǒng)計師可以接受這些問題中的計算科學(xué)成分的話，會很好，就像計算科學(xué)家已經(jīng)接受了機器學(xué)習(xí)中的統(tǒng)計成分一樣。最后，關(guān)于深度學(xué)習(xí)還有很多理論需要去發(fā)現(xiàn)，統(tǒng)計學(xué)家明顯可以在其中起到作用。

所以，是的，表面上看深度學(xué)習(xí)似乎正讓機器學(xué)習(xí)遠(yuǎn)離統(tǒng)計學(xué)，但是正像Max所說，他們在未來發(fā)展的多個方面可以起到重要作用。

Q28：你認(rèn)為，深度學(xué)習(xí)未被研究透徹的眾多部分中，哪個是最令人困惑的？

深度學(xué)習(xí)到處都是迷！看我之前回答《在深度學(xué)習(xí)方面有哪些開放研究領(lǐng)域？》（Q12）來找深度學(xué)習(xí)研究方向。

這里是一個研究得很不充分且真的令我疑惑不解的一個例子：

我們可以用一個高效在線算法（不需要儲存我們一生中所有的心理狀態(tài)然后倒序播放）在時間中（對于訓(xùn)練遞歸網(wǎng)絡(luò)）達到像反向傳播一樣，或者更好的效果嗎？大腦顯然做到了這一點，但我們沒有任何線索。

Q29：神經(jīng)網(wǎng)絡(luò)可以有一個關(guān)于它們內(nèi)在原理的純概率式解釋嗎？

通常情況下，沒有事物真的是簡單而純粹的，但是大部分神經(jīng)網(wǎng)絡(luò)都有一個清晰的概率解釋（事實上，近年來，我在自動編碼器的概率解釋中做出過一些貢獻，和Guillaume?Alain一起）。監(jiān)督式深度學(xué)習(xí)只是學(xué)習(xí)條件概率，然而很多不同類型的非監(jiān)督學(xué)習(xí)方法直接或間接地估計了數(shù)據(jù)生成分布的聯(lián)合分布。

然而，它們的工作原理不是概率問題。這涉及了統(tǒng)計問題還有優(yōu)化問題。

Q30：“機器學(xué)習(xí)領(lǐng)域最新的重要進展大部分是關(guān)于工程和計算能力的”，這句話對嗎？

我不同意這個觀點。我會說，計算能力和數(shù)據(jù)集的大小是必要的要素。在現(xiàn)代的深度網(wǎng)絡(luò)中，有幾個計算要素（ingredient）實際上帶來了不少的不同：修正器(rectifiers，及其變體)，丟棄法（dropout），批量正則化，還有某些情況里的半監(jiān)督式學(xué)習(xí)和遷移學(xué)習(xí)。這其中甚至還都沒有說到，由于出現(xiàn)了在十幾二十年前沒有人能想象到的算法，我們在生成式模型方面取得了驚人進展。

Q31：你認(rèn)為傳統(tǒng)的統(tǒng)計學(xué)習(xí)是否會在不久的將來再次戰(zhàn)勝深度學(xué)習(xí)（或者任何基于神經(jīng)網(wǎng)絡(luò)的方法）？

神經(jīng)網(wǎng)絡(luò)是統(tǒng)計學(xué)習(xí)方法。

科學(xué)不是戰(zhàn)斗，而是協(xié)作。我們都是在彼此的思想上建立自己的思想。科學(xué)是一種愛的行動，不是戰(zhàn)爭的行動。一種對于周圍的世界的美麗產(chǎn)生的愛，一種愿意分享和合作的愛。從情感上來說，這使科學(xué)成為一種讓人感到高度滿足的活動。

Q32：你對于進入機器學(xué)習(xí)領(lǐng)域的年輕研究者們有什么建議？

確認(rèn)你在數(shù)學(xué)和計算機科學(xué)領(lǐng)域(包括實際的部分，也就是編程)有扎實的背景。讀書和（大量的）論文，但這還不夠：你需要培養(yǎng)出你的直覺，這可以通過（a）親手編寫相當(dāng)多的學(xué)習(xí)算法，比如重現(xiàn)論文中的結(jié)果，以及（b）學(xué)習(xí)怎樣微調(diào)超參數(shù)以及怎樣探索（架構(gòu)、對象函數(shù)等方面的）變種。然后，找到合作者，你可以與他們一起對想法進行頭腦風(fēng)暴，并與他們一起分擔(dān)探索和測試新想法的工作量。當(dāng)然與一個已形成的團隊一起工作非常理想，或者如果你是一位大學(xué)教師的話，你可以招募你自己的學(xué)生，和他們一起進行工作。

Q33：一個人要怎么才能想出新的深度學(xué)習(xí)架構(gòu)？只是通過試錯嗎？

是，也不是。不是，因為對于一個單純的隨機搜索來說，能起作用的算法的空間太大了（均勻隨機的話，找到好東西的幾率非常小）。是，因為這會是一種高度引導(dǎo)式的隨機探索，就像任何其他科學(xué)努力一樣。但請盡量弄清到底發(fā)生了什么，這無疑會給你帶來更多的好處。這不僅僅是與在算法的空間中進行搜索有關(guān)，它也與在這一旅途上理解更多普適的概念有關(guān)。這就是隨機探索中“引導(dǎo)”的那一部分。它不同于只是想勝過基準(zhǔn)測試，而且從長遠(yuǎn)來看,它對其他人來說會更有用。提出理論來解釋你所看到的現(xiàn)象，然后通過建立一個專門為了打敗這個理論而設(shè)計的實驗來進行測試。不斷重復(fù)這個過程。這就是科學(xué)的歷久彌堅的方法。

Q34：你怎么看DeepMind？

那是一個好地方！許多我以前的學(xué)生都在那里工作。他們的研究成果很驚人。他們顯然是全球進行深度學(xué)習(xí)研究（為數(shù)不多的）最好的地方之一。而且我喜歡這個想法：Google之類的公司正在向一個與產(chǎn)品并不緊密相連的團隊所作的長遠(yuǎn)研究投入如此之多的資金。其他公司（如Facebook）已經(jīng)在朝著這個方向行進，而現(xiàn)在我們也有了（小得多的）OpenAI。所有這些開放和長期研究投資對科學(xué)進步都很有幫助。但我相信這無法取代學(xué)術(shù)界的作用。

Q35：我們什么時候才能看到深度學(xué)習(xí)的理論背景和數(shù)學(xué)基礎(chǔ)？

理論一直是神經(jīng)網(wǎng)絡(luò)研究的一個部分。參見我對于《Q1：在理解深度學(xué)習(xí)工作原理的道路上，我們已經(jīng)前進了多遠(yuǎn)？》的回答。

我覺得我們對于為什么深度學(xué)習(xí)能發(fā)揮作用有了許多根植于理論的洞見，但是我很確定我們還會做到更多！

Q36：在研究預(yù)料之外的實驗結(jié)果時，比如你覺得某個想法應(yīng)該會有效、結(jié)果在實驗里卻沒有效果，你會用到什么技術(shù)？?

好吧，通常來說，這要么是一個bug，要么就是更有趣的情況：它證明了你腦海中的模型應(yīng)該改一改了！你需要變得善于尋找bug（這需要練習(xí)），在機器學(xué)習(xí)中這并不是一件容易的事，因為許多bug仍然會允許及其繼續(xù)學(xué)習(xí)，只不過效果不那么好了。但無論如何，當(dāng)實驗結(jié)果與你的期望不符時，不要無視它！這是一個你應(yīng)該為之熱切期盼的機會;-)

有時候你腦海中的模型是錯誤的，但是別人可能不覺得你的結(jié)果讓他們驚訝，于是你將需要通過交流（可能是寫一篇論文，或者是與其他研究人員探討）來找出錯誤。

我最好的調(diào)試工具是我腦海中的模擬系統(tǒng)。讓模型在你的腦海中運轉(zhuǎn)，越詳細(xì)越好，然后試著想象有什么事可能發(fā)生。

Q37：如果“深度學(xué)習(xí)”這種詞語組合不存在的話，你會怎樣稱呼它？

神經(jīng)網(wǎng)絡(luò)也是一個不錯的詞語組合。

Q38：深度學(xué)習(xí)之后機器學(xué)習(xí)中的“下一個”大事會是什么？

第一，我根本沒有水晶球。第二，據(jù)我所知，當(dāng)我們實現(xiàn)了人類級別的AI后，深度學(xué)習(xí)的使命就結(jié)束了，而我很難預(yù)見這之后會發(fā)生什么。深度學(xué)習(xí)為神經(jīng)網(wǎng)絡(luò)帶來了一些想法。隨著時間推移，其他概念也會加入其中，從而一點點向著實現(xiàn)AI方向努力。我真的認(rèn)為有些想法會歷久彌新。這像是在問“我們研究了過擬合、欠擬合和容量之后，機器學(xué)習(xí)的下一個大事件是什么？”（過擬合、欠擬合和容量在80年代后期開始盛行。）這些想法永遠(yuǎn)不會過時，因為它們非常有用。顯然這類想法，如學(xué)習(xí)復(fù)合函數(shù)（深度）的提出（和重要性），會歷久彌新。但單憑其自身無法保證這一點。我們還有很多工作要完成。

Q39：你對概率圖模型是怎么看的？

概率圖模型的相關(guān)研究給我（和很多其他的深度學(xué)習(xí)研究人員）提供了一些偉大的洞見。它們是很多非監(jiān)督學(xué)習(xí)算法的基礎(chǔ)，也幫助人們理解了那些看起來不像是概率問題的模型（如自動編碼器）。

Q40：在自然語言方面，未來的深度學(xué)習(xí)會有怎樣的發(fā)展。

我相信，對于深度學(xué)習(xí)，自然語言處理是最讓人興奮的研究領(lǐng)域之一。這是一個長期存在的挑戰(zhàn)，而深度學(xué)習(xí)正試圖解決它們，而且我相信我們這套正確的工具能夠取得巨大進步。

Q41:ILSVRC12?,14,15?這三個先進的解決方案分別包含5層，23層，152層的卷積神經(jīng)網(wǎng)絡(luò)。您認(rèn)為基于深度學(xué)習(xí)的視覺識別在朝著什么方向發(fā)展？

應(yīng)該注意這樣的數(shù)據(jù)：如果每一層激活函數(shù)更具線性，那么更深的神經(jīng)網(wǎng)絡(luò)實質(zhì)上不會給你帶來更多東西。我認(rèn)為基于深度學(xué)習(xí)的視覺識別技術(shù)將會繼續(xù)被改善（盡管可能不是在ImageNet這一基準(zhǔn)測試上，因為它幾乎達到了人類的水平。）在多變場景下的全景理解還沒有取得任何進展，更別說“理解一個電影了”。從某些方面來說，更好的視覺理解需要更好的AI技術(shù)，也即更好的理解世界運行機制的機器，這包括理解人與人之間的交流。

Q42：你為什么會對機器學(xué)習(xí)感興趣？

那是在1986年，我正在為我的計算機理學(xué)碩士學(xué)位尋找一個研究主題，并且我開始閱讀一些基于神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的早期聯(lián)結(jié)主義論文。我一見鐘情。自那以后，我對其一直很有熱情并且成為它的忠誠信徒。

Q43:除了重構(gòu)輸入數(shù)據(jù)（例如像是自編碼器這樣的深度神經(jīng)網(wǎng)絡(luò)，其工作原理即是重構(gòu)輸入數(shù)據(jù)），還有其它什么任務(wù)能夠證明對深度網(wǎng)絡(luò)中的無監(jiān)督學(xué)習(xí)有用？

許多！

就我們目前知道的就有很多，例如：

在給定其它變量的情況下，預(yù)測另一個變量（偽似然函數(shù)）

給定其它的情況下，預(yù)測多個變量的子集（廣義的偽似然函數(shù)）

給定了以某種順序排列的前部分變量，預(yù)測下一個變量（完全可視的貝葉斯網(wǎng)絡(luò)，自回歸網(wǎng)絡(luò)，NADE，生成式循環(huán)神經(jīng)網(wǎng)絡(luò)）

給定一個有噪聲的輸入，恢復(fù)原始干凈的信號點（去噪過程）

預(yù)測輸入信號是來自于數(shù)據(jù)生成分布還是其他分布（像是一個概率分類器）（對比噪聲估計）

學(xué)習(xí)一個可逆函數(shù)，使其變換分布盡可能是階乘式的。（NICE，并且考慮到近似一個可逆函數(shù)，利用變分的自編碼器就有這樣的特性）

學(xué)習(xí)一個隨機變換，基于此，如果我們多次運用這個隨機變換，我們能夠使我們的模型模型收斂到接近于數(shù)據(jù)生成分布的輸出。（生成隨機網(wǎng)絡(luò)、生成去噪自編碼器、擴散反演=非平衡態(tài)熱力學(xué)系統(tǒng)）

學(xué)習(xí)生成分類器不能從訓(xùn)練樣本中辨別出的樣本（生成對抗網(wǎng)絡(luò)）

或者最大化某個概率模型中數(shù)據(jù)的似然概率

并且我確定我忘記了一些，并且會出現(xiàn)越來越多的基于無監(jiān)督式學(xué)習(xí)的模型。

Q44：你認(rèn)為自己將來某一天會在Coursera上開講深度學(xué)習(xí)課程嗎？

當(dāng)編寫有關(guān)深度學(xué)習(xí)的書時，我感覺我自己用盡了我全部的精力。我需要回復(fù)一些元氣。或者其他人會來教授關(guān)于機器學(xué)習(xí)的網(wǎng)絡(luò)公開課，而且他們可能會比我做的更好！最令我感到滿意的感受之一就是看到所有這些聰明的研究者沉浸在深度學(xué)習(xí)研究中。

Q45：你認(rèn)為NIPS會議取得了多大的成功？

太成功啦！

NIPS委員會正在考慮應(yīng)該怎樣來應(yīng)對參會人員的增長。隨著參會人數(shù)數(shù)量呈指數(shù)式地增長，一些像是在每個海報周圍預(yù)設(shè)多少圍觀人數(shù)才合理之類簡單的問題都是不容易得到解決的。

你認(rèn)為我們應(yīng)該嘗試多聲道口述？當(dāng)房間里有數(shù)千人時，繼續(xù)單聲道口述有意義嗎？為了自己的利益，NIPS是不是太大了呢？同樣的問題之后也在ICML上出現(xiàn)了。

Q46：關(guān)于統(tǒng)計學(xué)習(xí)理論，你有什么想法？

統(tǒng)計學(xué)習(xí)理論是機器學(xué)習(xí)的部分理論基礎(chǔ)（對深度學(xué)習(xí)同樣適用）。我們需要用新的和更多的理論來解釋用我們觀察到的今天的學(xué)習(xí)算法所產(chǎn)生的現(xiàn)象。

Q47：你認(rèn)為利用AI技術(shù)能夠捕捉到人類失去理性的行為和思考過程嗎（例如?信任）？

當(dāng)然。你所謂的非理性即是指“錯的”。可能不能充分適用于這種情況。信任思維是非常理性的。理性于我而言就是:“利用可用的知識，做出正確的決定。”信任，以及其它許多的人類舉動都是非常理性的。如果我們不相信任何人，我們哪里也去不了。最重要的是做對的事情。生物、文化的發(fā)展以及我們自己的經(jīng)歷已經(jīng)在我們心中對世界建立了一個模型。但是我們沒有意識到它的大部分。理性對于我來說，不是可以用幾句話或者幾個詞就能夠解釋的。它對于我來說就是意味著最優(yōu)的決策。

Q48：基于你以前的工作——不同時間段下的分離的循環(huán)神經(jīng)網(wǎng)絡(luò)（1995年），你認(rèn)為最近的Clockwork?循環(huán)神經(jīng)網(wǎng)絡(luò)（Clockwork?RNNs）怎么樣？

它是一篇非常好的論文，但是我認(rèn)為我們還沒有解決如何學(xué)習(xí)時間層次的問題。在我1995年NIPS論文上，基于clockwork?RNN（鐘擺循環(huán)神經(jīng)網(wǎng)絡(luò)），時間層次結(jié)構(gòu)是固定的。我想看到這樣一個結(jié)構(gòu)：可學(xué)習(xí)的，動態(tài)的（例如，在一個被處理的序列中，在不同的時間點是不一樣的。）

Q49:你認(rèn)為我們擁有一個支持或解釋深度學(xué)習(xí)原理的理論框架有多重要？

我認(rèn)為追求更多的關(guān)于深度學(xué)習(xí)的理論研究是一件非常有價值的事。

幾年前，我認(rèn)為它之所以重要是為了為人們提供便利。現(xiàn)在，實踐結(jié)果如此強大，以至于當(dāng)初的動機已經(jīng)開始轉(zhuǎn)移了。將來更好的理論能夠幫助我們建立更好的算法。

Q50：在機器學(xué)習(xí)中解釋一個模型有多重要？

這個問題就像是在問“一個人能夠完全解釋他的每個想法有多重要？”

那當(dāng)然很好啦，但是對于我們發(fā)現(xiàn)人類（或機器）是否一個好伙伴來說，不一定必要的。可解釋性已經(jīng)被大肆地?zé)嶙h過了。在使用一個模型前我們真正需要的是對一個訓(xùn)練模型泛化能力的可靠保證。（這也正是圍繞一個訓(xùn)練模型不斷計算其測試的錯誤率以及不斷評估其不確定性要達到的目標(biāo)）。那即是指：我們應(yīng)該盡我們所能來理解機器學(xué)習(xí)模型的內(nèi)部到底是如何工作的，因為只有這樣，才能夠幫助我們排除模型中出現(xiàn)的故障，并且了解到模型的局限性，進而建立更好的模型。

Q51：你認(rèn)為有可能讓算法從通常被當(dāng)做是噪音的數(shù)據(jù)中提取出有用的信息嗎？

只有當(dāng)其中存在一些潛在統(tǒng)計結(jié)構(gòu)時！（即使我們沒有看到它）

我確定，聽見我說話的貓只是認(rèn)為我在發(fā)出一些有趣的噪音（例如，對于貓來說，當(dāng)聲音變得響亮或聲調(diào)高時，這些噪音才包含信息）。當(dāng)我聽到一個完全不同的專業(yè)人士用各種專業(yè)詞匯談?wù)撃硞€話題時，這也很快也會變成噪音。只有當(dāng)我們構(gòu)建了合適的模型時，才能把噪音變得有規(guī)律，例如，用與眾不同的方式來預(yù)測，會承載有用信息。

Q52：我們?nèi)绾巫屔疃葘W(xué)習(xí)在計算能力較低的設(shè)備（如手機）上運行？

開發(fā)專業(yè)硬件，設(shè)計相應(yīng)的學(xué)習(xí)算法。在我的實驗室中，我們研究在很低的分辨率下且不需要使用任何乘法運算的神經(jīng)網(wǎng)絡(luò)的實現(xiàn)方法。這在很大程度上會減少計算消耗。

Q53：和你一起工作有哪些非學(xué)術(shù)的方式？

我經(jīng)常和不在我實驗室的人遠(yuǎn)程合作（例如在這個星球上的其他本科學(xué)生）。

Q54：加拿大蒙特利爾有哪些有趣的初創(chuàng)公司？

Imagia、Mantika、Datacratic、?Apstat、?Maluuba（不再是一家初創(chuàng)公司，起源于Waterloo）。

Q55：你對哪些有志于PhD項目的學(xué)生有哪些意見？

見我之前的回答：What?areas?need?to?be?covered?for?machine?learning?and?deep?learning?in?particular.（深度學(xué)習(xí)和機器學(xué)習(xí)方面需要有哪些背景？）

論文下載

回復(fù)?0121?按照本文中標(biāo)注的序號如Q1a,Q1b來下載相應(yīng)的論文

總結(jié)

以上是生活随笔為你收集整理的【Yoshua Bengio 亲自解答】机器学习 81 个问题及答案（最全收录）的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：【debug、info、warn、err
下一篇： XCode7 创建framework

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

【Yoshua Bengio 亲自解答】机器学习 81 个问题及答案（最全收录）

總結(jié)