【深度学习下一大突破】吴恩达对话 Hinton、Bengio、Goodfellow(视频)
【深度學(xué)習(xí)下一大突破】吳恩達(dá)對話 Hinton、Bengio、Goodfellow(視頻)
| [日期:2017-08-11] | 來源:新智元? 作者: | [字體:大 中 小] |
【新智元導(dǎo)讀】吳恩達(dá)深度學(xué)習(xí)系列課程 Deeplearning.ai 上線,專設(shè)對話部分,用視頻的形式將他對 7 位深度學(xué)習(xí)領(lǐng)袖的采訪呈現(xiàn)出來,分別是 Geoffrey Hinton、Yoshua Bengio、Ian Goodfellow、Andrej Karpathy、林元慶、Ruslan Salakhutdinov、Pieter Abbeel。新智元重點(diǎn)整理了深度學(xué)習(xí)先驅(qū) Hinton、Bengio 和新秀 Goodfellow 的訪談。他們?nèi)绾芜M(jìn)入深度學(xué)習(xí)領(lǐng)域,如何看深度學(xué)習(xí)發(fā)展?他們曾犯過哪些錯誤,如何做好的深度學(xué)習(xí)研究。這些高手間的交流將為你帶來深度沖擊。
全部視頻地址:http://v.qq.com/u/videos/#cover_edit/6f6000801v5zdtf
Geoffery Hinton:少看論文,絕對不要停止編程
吳恩達(dá):作為深度學(xué)習(xí)的前沿研究者,您提出了有關(guān)深度學(xué)習(xí)的許多新觀點(diǎn),許多人稱您為“深度學(xué)習(xí)教父”,雖然我剛才跟您聊天的時候才知道是您自己首先自稱“深度學(xué)習(xí)教父”的。那么我想問一下您的傳奇背后的故事。您是如何開始涉足AI,機(jī)器學(xué)習(xí),以及神經(jīng)網(wǎng)絡(luò)的呢?
Geoffery Hinton(以下簡稱Hinton):我讀高中時,遇到一位非常好的班主任。他是一名卓越的數(shù)學(xué)家,有一天上課時,他問,“你知道大腦全息圖(hologram)嗎?“那大概是在1966年,我當(dāng)時問,“什么是全息圖?”他解釋說,在全息圖中,你可以切掉一部分,但仍能看到整個畫面,也就是說大腦中的記憶可能是分布在整個腦中。“我猜他讀過 Lashley 的實(shí)驗(yàn),就是切掉小鼠的部分腦皮層,發(fā)現(xiàn)很難找到大腦的哪個區(qū)域是存儲特定記憶的地方。這是我第一次對大腦如何存儲記憶感興趣。于是我上大學(xué)時,就開始修讀生理學(xué)和物理學(xué)。后來我放棄這兩個學(xué)科,轉(zhuǎn)修哲學(xué),因?yàn)槲艺J(rèn)為哲學(xué)能給我更多對于大腦的理解。但是在我看來,哲學(xué)的理解方式也無法讓我滿意。所以我轉(zhuǎn)向了心理學(xué),心理學(xué)領(lǐng)域有非常簡單的理論,在我看來這些理論完全不足以解釋大腦的工作方式。于是我去當(dāng)了1年的木匠。再后來我去愛丁堡大學(xué)研究生院,決定學(xué)習(xí)AI,師從 Longuet-Higgins。他曾在神經(jīng)網(wǎng)絡(luò)方面做過一些很好的工作,但卻在那時放棄了神經(jīng)網(wǎng)絡(luò),改為支持傳統(tǒng)的人工智能論點(diǎn)。所以我去愛丁堡時,他認(rèn)為我做的是過時的東西,叫我應(yīng)該從符號學(xué)的角度去研究。我們有過很多爭吵,但我只是一味堅持我所相信的工作。
我終于獲得了一個AI的PhD,但沒能在英國找到工作。我于是去了加利福尼亞州,那里一切都不一樣。在英國,研究神經(jīng)網(wǎng)絡(luò)被認(rèn)為是愚蠢的事情,但在加利福尼亞,Don Norman 和 David Rumelhart 等人對神經(jīng)網(wǎng)絡(luò)的觀點(diǎn)非常開放。那是我第一次體會到,思考大腦如何工作,思考大腦的工作方式與心理學(xué)的聯(lián)系是一件非常積極的事情,這是非常有趣的。特別是與 David Rumelhart 的合作經(jīng)歷非常好。
吳恩達(dá):那么,您是在UCSD(加州大學(xué)圣地亞哥分校)時,與 Rumelhart 合作寫了那篇著名的反向傳播(back-propagating)方面的論文,對嗎?
Hinton:實(shí)際上,這件事還要復(fù)雜一些。大概是在1982年初,David Rumelhart 和我,還有 Ronald Williams,一起開發(fā)了反向傳播算法。這主要是 David Rumelhart 提出的idea。我們后來發(fā)現(xiàn)有其他許多人已經(jīng)提出過這一算法了。David Parker 提出過,可能他是在我們之后提出的,但發(fā)表論文是在我們之前。Paul Werbos 也比我們早幾年發(fā)表過論文,但沒有得到很多重視。還有其他許多人也提出了類似的算法。
吳恩達(dá):為什么你認(rèn)為是你們的研究論文讓這個研究圈子接受了反向傳播的算法?給我的感覺是你們的論文起了很大作用。
Hinton:我們在1986年得以在 Nature 期刊上發(fā)表了一篇論文。為了讓論文被接收,我做了很多工作。我得知其中一位審稿人可能是 Stuart Sutherland,他是英國的一位著名心理學(xué)家。我去和他談了很久,向他解釋反向傳播是什么。這給他留下了非常深刻的印象,我猜這是論文被 Nature 接收的一個原因。
(Hinton接著解釋了一下反向傳播算法)
吳恩達(dá):最近有關(guān)GPU、超級計算機(jī),這些超快的計算機(jī)如何加速深度學(xué)習(xí)的談?wù)摵芏?#xff0c;但在1986年,或者說90年代初,您和Bengio就已經(jīng)開始做深度學(xué)習(xí)了。
Hinton:是的,這是一個巨大的進(jìn)步。在1986年,我使用的計算機(jī)運(yùn)算能力不足1/10 megaflops到大約1993年,達(dá)到10 megaflops,也就是說計算力增加了100倍。正是由于計算機(jī)變的越來越快,深度學(xué)習(xí)變得易于使用了。
吳恩達(dá):在過去幾十年里,你發(fā)明了神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)的許多方法,在您發(fā)明的所有東西中,哪個是您現(xiàn)在仍然覺得是最令人興奮的?
Hinton:我認(rèn)為最美的一個是我與Terry Sejnowski一起發(fā)明的玻爾茲曼機(jī)(Boltzmann machin)。我們發(fā)現(xiàn)有一個真正非常簡單的學(xué)習(xí)算法,可以應(yīng)用于很大很密集的網(wǎng)絡(luò),你只會看到幾個節(jié)點(diǎn),它會學(xué)習(xí)隱藏的表示。它真的是一個非常簡單的算法。
(Hinton接著解釋了玻爾茲曼機(jī)的機(jī)制)
(Hinton接著講了一堆技術(shù)干貨,以及他正在做的研究,請看視頻)
吳恩達(dá):您已經(jīng)在深度學(xué)習(xí)領(lǐng)域工作了幾十年,我想問,這幾十年間您對AI的理解有什么變化?
Hinton:我的很多研究是圍繞反向傳播的,包括如何使用反向傳播,如何利用它的能力。在20世紀(jì)80年代中期,我們在判別學(xué)習(xí)(Discriminative learning)中使用它,能表現(xiàn)得很好。到90年代初,我開始認(rèn)為人類學(xué)習(xí)中的大部分都是無監(jiān)督學(xué)習(xí)(unsupervised learning),我開始對無監(jiān)督學(xué)習(xí)有了更多興趣,提出了 Wake-Sleep 算法。
吳恩達(dá):您那時的思想也深深地影響了我。
Hinton:是的,我也可能是誤導(dǎo)了你。但長期來看,我認(rèn)為無監(jiān)督學(xué)習(xí)是關(guān)鍵的。但你也要面對現(xiàn)實(shí),在過去十多年里,能起效的是監(jiān)督學(xué)習(xí),是區(qū)分性訓(xùn)練(Discriminative training),使用有標(biāo)簽的數(shù)據(jù)。但我仍然認(rèn)為無監(jiān)督學(xué)習(xí)將會變成關(guān)鍵,將能夠變得比現(xiàn)在好很多,但我們目前仍未能做到。
吳恩達(dá):是的,我想研究深度學(xué)習(xí)的許多人都這樣相信,包括我也是,都對無監(jiān)督學(xué)習(xí)感到興奮,只是現(xiàn)在沒有人知道如何可以做得更好。
(Hinton 接著講了無監(jiān)督學(xué)習(xí)中有前途的一些idea)
吳恩達(dá):您對想進(jìn)入深度學(xué)習(xí)領(lǐng)域的新人有什么建議?我想您肯定已經(jīng)一對一地給許多人提過建議,但對于很多人,對于正在觀看這個視頻的一大批人,請您對他們提一些建議。
Hinton:我的建議是,要閱讀文獻(xiàn),但不要讀太多。這也是我從我的老師那里得到的建議,可能與大部分人認(rèn)為的不一樣。大部分人認(rèn)為應(yīng)該花上好幾年的時間,讀很多很多的文獻(xiàn),然后再開始做自己的研究。可能對于一部分研究者來說這樣很好,但對于創(chuàng)造性的研究者來說,我認(rèn)為你應(yīng)該讀一些文獻(xiàn),了解其他人走了哪些彎路,就是某些研究給人感覺不對。然后你要找到如何做對的方法。就算有人跟你說那樣做不好,你也要堅持做。關(guān)于如何堅持,我有一個好原則,就是不要管你的直覺是好是壞,如果直覺是好的,那你應(yīng)該繼續(xù),結(jié)果會成功;如果你的直覺不對,那也沒關(guān)系。你應(yīng)該相信你的直覺,沒有理由不相信它們。
我的第二個建議是,不要停止編程。因?yàn)槿绻阕屢粋€學(xué)生去做某個項(xiàng)目,如果進(jìn)行不順,這個學(xué)生可能會跑回來說它不work。要推導(dǎo)為什么它不work,需要做一些小決策,他們沒能認(rèn)識到這是關(guān)鍵的。但假如是優(yōu)秀的學(xué)生,比如說你,你會回來說它是work的。
吳恩達(dá):對于想要進(jìn)入AI,或者深度學(xué)習(xí)的人,您還有什么建議嗎?
我想關(guān)鍵是你要有直覺,然后相信你的直覺。不要擔(dān)心其他人說什么,那是無意義的。如果你認(rèn)為那真的是一個好點(diǎn)子,但其他人說那完全沒意義,那你就知道你真的遇到大事了。一個例子是, Radford 和我提出變分方法(variation method)的時候,我給我的一個學(xué)生寫信解釋這個方法,這個學(xué)生叫 Peter Brown。他又給他的工作同事解釋,叫Della Pietra 兄弟的,我猜他們是雙胞胎。Brown后來告訴我這兩兄弟說了什么,他們說,這非常愚蠢。所以說,他們真的認(rèn)為我們提出的新方法毫無意義。所以,當(dāng)你在做的事情被別人認(rèn)為是垃圾的時候,就是它真的是一個超級好的idea的跡象。
Yoshua Bengio:無監(jiān)督學(xué)習(xí) × 強(qiáng)化學(xué)習(xí)將帶來領(lǐng)域革新
Bengio 已經(jīng)成為深度學(xué)習(xí)代表人物之一,他是如何進(jìn)入這個領(lǐng)域的?Bengio 在采訪中表示,他 1985 年讀博的時候讀到神經(jīng)網(wǎng)絡(luò)的論文,了解到人類是如何學(xué)習(xí)的,這對于當(dāng)時還在上經(jīng)典人工智能,也就是專家系統(tǒng)課程的他來說非常激動。他讀了 Hinton 的論文,了解到聯(lián)結(jié)主義,于是開始研究 RNN、語音識別、圖模型,畢業(yè)后進(jìn)入 AI&T,貝爾實(shí)驗(yàn)室,在 MIT 讀博士后,最后回到蒙特利爾。
見證了深度學(xué)習(xí)這幾十年的發(fā)展歷程,Bengio 談了最開始他們直覺上知道深度學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)會更加強(qiáng)大,但是卻無法證明。現(xiàn)在,我們已經(jīng)明白了為什么 BP 這么好用,深度為什么對網(wǎng)絡(luò)重要。Bengio 以前認(rèn)為,BP 要好好工作必須有平滑的非線性(smooth nonlinearites),他曾經(jīng)很擔(dān)心遇到 Flat parts,導(dǎo)數(shù)為 0 會出現(xiàn)失敗。但在 2010 年左右,他發(fā)現(xiàn) ReLu 實(shí)際上比 Sigmod 訓(xùn)練起來更好,這令他十分意外。
這一發(fā)現(xiàn)也與生物學(xué)有關(guān)。實(shí)際上,Bengio 最初對神經(jīng)網(wǎng)絡(luò)感到興奮的點(diǎn),就是信息在人類大腦里是分布式地存在于每個神經(jīng)元,而不是一開始以為的存在“祖母細(xì)胞”,后者代表了符號表征(symbolic representaion)。也是由此,他當(dāng)年進(jìn)行了很多相對淺層但分布式的 word embedding 模型。
上世紀(jì) 90 年代末,Bengio 和他的弟弟 Samy 一起,試圖用神經(jīng)網(wǎng)絡(luò)解決“維度詛咒”這一在統(tǒng)計學(xué)習(xí)上的老問題。其中涉及到對隨機(jī)變量進(jìn)行有效分布式表征的工作,于是將其拓展到序列聯(lián)合表征上,這就是 word embedding 的由來。
Bengio 和他的團(tuán)隊提出了很多理論、技術(shù),他最自豪的工作包括長期依賴(long-term dependency,這也是 Bengio 認(rèn)為人們理解還不夠深的一項(xiàng)工作)。其他令他自豪的還有自編碼器、消失的梯度、piecewise 線性激活函數(shù)、神經(jīng)機(jī)器翻譯(NMT)。
其中,神經(jīng)機(jī)器翻譯被用在了包括谷歌翻譯在內(nèi)的多個產(chǎn)業(yè)服務(wù)上。這項(xiàng)工作使用了注意力機(jī)制,Bengio 表示注意力機(jī)制的提出十分重要,以前神經(jīng)網(wǎng)絡(luò)是向量到向量的映射,而注意力機(jī)制讓神經(jīng)網(wǎng)絡(luò)可以處理任何類型的數(shù)據(jù)。
Bengio 最近在做的一項(xiàng)工作是提出類似 BP 的方法,但是讓人類大腦可以理解。他的研究團(tuán)隊在這方面已經(jīng)發(fā)表了幾篇論文,是神經(jīng)科學(xué)研究人員會感興趣的。
實(shí)際上,Bengio 一直以來都對深度學(xué)習(xí)和大腦的聯(lián)系很感興趣,在這方面也思考了很多。他聽 Hinton 第一次關(guān)于深度學(xué)習(xí)的 workshop,Hinton 提到了大腦是如何工作的,如何利用時間信號做 BP,這對他十分有啟發(fā)。他認(rèn)為目前深度學(xué)習(xí)與大腦就像一個拼圖(puzzle),一方面我們已經(jīng)有了很多證據(jù)(pieces),比如 spike timing-dependent 可塑性,另一方面有很多機(jī)器學(xué)習(xí)的概念,比如使用目標(biāo)函數(shù)對系統(tǒng)進(jìn)行全局訓(xùn)練,credit assignment。但是,如何將兩方面聯(lián)系起來?Credit assignment 真正意味著什么?
Bengio 認(rèn)為,BP 后面實(shí)際上還有更 general 的概念,這將是 credit assigment 有用的一個原因。這方面也是研究強(qiáng)化學(xué)習(xí)的人在討論的。
無監(jiān)督學(xué)習(xí)也是 Bengio 感興趣的方向,并且多次在演講中提到。Bengio 認(rèn)為,無監(jiān)督學(xué)習(xí)并不僅僅關(guān)系著有沒有標(biāo)簽,而是在更加深層的意義上,如何讓機(jī)器能夠通過觀察學(xué)習(xí),如何讓機(jī)器從人機(jī)交互中學(xué)習(xí),就像人類學(xué)習(xí)一樣。
Bengio 認(rèn)為,無監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)的結(jié)合,或許會帶來在底層上更多的共通點(diǎn),接下來幾年這方面或許會有大突破——那種在領(lǐng)域內(nèi)掀起革新的突破。因?yàn)?#xff0c;目前有很多方法去實(shí)現(xiàn)無監(jiān)督學(xué)習(xí),換句話說,關(guān)于什么是無監(jiān)督學(xué)習(xí)還沒有定論。如何定義一個好的表征,什么是一個好的目標(biāo)函數(shù),現(xiàn)在都沒有明確的標(biāo)準(zhǔn)。
Bengio 認(rèn)為,目前的深度學(xué)習(xí)和所謂智能系統(tǒng)的表現(xiàn),表明當(dāng)前我們只做到了非常膚淺的部分,還遠(yuǎn)遠(yuǎn)沒有觸及智能的本源。我們必須去研究機(jī)器如何觀察世界、理解世界,研究高層抽象,進(jìn)行認(rèn)知方面的探索。這個世界既包括真實(shí)世界,也可以是簡單如視頻游戲的虛擬環(huán)境。
同時,這樣做不需要與谷歌、Facebook 或百度這樣的巨頭競爭,世界上任何人都能研究這一點(diǎn),并且有巨大的潛力和機(jī)會改變世界。
深度學(xué)習(xí)結(jié)合強(qiáng)化學(xué)習(xí)也會帶來應(yīng)用上的啟發(fā)。Bengio 一直以來都在研究 toy problem,以小見大。隨著硬件性能的提高,他可以做很多很多 toy experiments,加快研究周期。
最后,Bengio 談了他關(guān)于深度學(xué)習(xí)作為科學(xué)(science)的看法。Bengio 認(rèn)為深度學(xué)習(xí)不止是工程,也是科學(xué),因此他一直在研究深度學(xué)習(xí)本身,理解深度學(xué)習(xí)原理和現(xiàn)象。當(dāng)然,不一定要有各種數(shù)學(xué)證明(有當(dāng)然更好),但至少要能有理有據(jù),說服對方(比如這里為什么要用深度學(xué)習(xí))。因此,研究不是為了刷新基準(zhǔn),超越其他實(shí)驗(yàn)室或公司的人,而是提出有意義的問題,比如與其提出性能更好的算法,還不如設(shè)計實(shí)驗(yàn)去理解當(dāng)前已有的算法。
Ian Goodfellow:瀕死體驗(yàn)讓他堅定做AI
Ian Goodfellow 作為最近的深度學(xué)習(xí)紅人(very visible),也接受了吳恩達(dá)的采訪。他在訪談中講述了他自己是如何進(jìn)入深度學(xué)習(xí),他提出 GAN 的故事,以及《深度學(xué)習(xí)》這本書。
實(shí)際上,Goodfellow 最開始學(xué)的是神經(jīng)科學(xué),那時候的 AI 都是 game-AI。后來,他的導(dǎo)師讓他去進(jìn)一步了解,他就上了吳恩達(dá)的 AI 入門課程。在吳恩達(dá)的課上,Goodfellow 看到了線性回歸、variants decomposition……等等概念,這讓他意識到,深度學(xué)習(xí)是一門科學(xué)(real science),他可以把自己的研究生涯建立在這個基礎(chǔ)上。后來,在朋友的影響下,他讀了 Hinton 關(guān)于深度信念網(wǎng)絡(luò)的論文,感到非常激動,自己和朋友在斯坦福建造了基于 CUDA 的 GPU 機(jī)器。
當(dāng)時 Goodfellow 就強(qiáng)烈預(yù)感,深度學(xué)習(xí)是未來的大方向(is the way to go in the future)。因?yàn)樯疃葘W(xué)習(xí)不像當(dāng)時的其他方法,比如 SVM(SVM 數(shù)據(jù)增多訓(xùn)練就變慢),于是他盡可能地聚焦深度學(xué)習(xí)。起初是自己出錢在朋友媽媽的家里弄,后來才開始用斯坦福實(shí)驗(yàn)室的資金做一些研究。
GAN 是當(dāng)前討論最多的深度學(xué)習(xí)方法之一。Ian Goodfellow 也講了他是如何發(fā)明 GAN 的。當(dāng)時他在研究生成模型,在酒吧里跟朋友討論,說你應(yīng)該這么做這么做這么做,我打賭一定會有用。但是朋友不信,于是他直接從酒吧回去開始做實(shí)驗(yàn),一晚上就寫出了 GAN 論文。
Goodfellow 表示他很幸運(yùn)第一次就 work 了,這樣他不用去調(diào)參數(shù)。實(shí)際上當(dāng)時他正在寫《深度學(xué)習(xí)》這本書。現(xiàn)在,《深度學(xué)習(xí)》中譯本已經(jīng)出版,回過頭看,Goodfellow 表示,他們在寫作這本書的時候,特意強(qiáng)調(diào)了數(shù)學(xué),尤其是線性代數(shù)和概率論,就像當(dāng)年吳恩達(dá)的 AI 課一樣,他認(rèn)為你必須具備基礎(chǔ)數(shù)學(xué)知識才能真正做深度學(xué)習(xí)。
GAN 屬于生成模型的一種,雖然現(xiàn)在應(yīng)用很多,但訓(xùn)練十分不穩(wěn)定。Goodfellow 認(rèn)為,實(shí)際上 GAN 能做的事情很多其他生成模型也能做,現(xiàn)在 GAN 正處于交叉路口,如果能穩(wěn)定下來,甚至能像深度學(xué)習(xí)那么可靠,那么 GAN 就能真正發(fā)展起來。如果不能,那么 GAN 將會被其他方法取代,成為發(fā)展中的一個過程。現(xiàn)在,他有大約 40% 的時間用在穩(wěn)定 GAN 上面。
Goodfellow 還提到了一件趣事,他曾經(jīng)有過一次臨死體驗(yàn),正是這一經(jīng)歷堅定了他從事 AI。當(dāng)時他頭超級超級痛,可能是大腦出血,在等 MRI 檢查結(jié)果的時候,他意識到他最想讓人做的,是研究他論文中提出的東西。雖然現(xiàn)在想來,都是些很稚嫩的概念,但是,他意識到從事 AI 研究是他人生的第一大事。吳恩達(dá)聽后表示,這真正體現(xiàn)了決心(commitment)。
總結(jié)
以上是生活随笔為你收集整理的【深度学习下一大突破】吴恩达对话 Hinton、Bengio、Goodfellow(视频)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 诚安聚立总裁刘志军:对标三大征信局与FI
- 下一篇: 吴恩达Deeplearning.ai课程