【深度学习】449页pdf,FaceBook称其迈出“重塑AI科学的第一步”
原文:Advancing AI theory with a first-principles understanding of deep neural networks
作者:FaceBook AI
譯者:Hugo
18 世紀(jì)末到?19 世紀(jì)初,英國(guó)人瓦特改良了蒸汽機(jī),這也為工業(yè)革命提供了動(dòng)力,并徹底改變了制造業(yè)。接下來(lái)的一個(gè)世紀(jì),熱力學(xué)定律和統(tǒng)計(jì)力學(xué)原理得到發(fā)展,科學(xué)家們才能夠在理論層面上全面解釋蒸汽機(jī)的工作原理和工作過(guò)程。
當(dāng)然,缺乏理論理解并沒(méi)有阻止人們對(duì)蒸汽機(jī)的改進(jìn),熱機(jī)原理的發(fā)現(xiàn)促使這些改進(jìn)更加迅速。當(dāng)科學(xué)家們掌握了統(tǒng)計(jì)力學(xué)之后,很快就制造出了更好、更高效的發(fā)動(dòng)機(jī)。統(tǒng)計(jì)力學(xué)使人們認(rèn)識(shí)到物質(zhì)是由原子構(gòu)成的,它是量子力學(xué)的發(fā)展起源,甚至也推動(dòng)了我們今天使用的為計(jì)算機(jī)提供動(dòng)力的晶體管的發(fā)展。
如今,人工智能正處于類似的關(guān)頭。深度神經(jīng)網(wǎng)絡(luò) (DNNs) 是現(xiàn)代人工智能研究的一部分,從某種角度來(lái)說(shuō),它目前也是一個(gè) “黑盒子”。
盡管人工智能從業(yè)者取得了重大進(jìn)展,但業(yè)界普遍認(rèn)為 DNNs 過(guò)于復(fù)雜,無(wú)法從基本原理來(lái)解釋。目前的神經(jīng)網(wǎng)絡(luò)模型在很大程度上是通過(guò)反復(fù)試驗(yàn)來(lái)調(diào)整的,雖然反復(fù)試驗(yàn)可以通過(guò)多年的經(jīng)驗(yàn)進(jìn)行,但卻沒(méi)有任何統(tǒng)一的理論語(yǔ)言來(lái)描述 DNNs 及其功能。
現(xiàn)在,我們即將出版《深度學(xué)習(xí)理論原理:理解神經(jīng)網(wǎng)絡(luò)的有效理論方法》(The Principles of Deep Learning Theory An Effective Theory Approach to Understanding Neural Networks)一書,該研究由 Facebook AI 研究院的 Sho Yaida、麻省理工學(xué)院和 Salesforce 的 Dan Roberts 以及普林斯頓的 Boris Hanin 共同完成。
Sho Yaida、Dan Roberts、Boris Hanin
這本書提供了一個(gè)理論框架,從第一性原理來(lái)理解 DNNs。對(duì)于人工智能從業(yè)者來(lái)說(shuō),這種理解可以顯著減少訓(xùn)練這些 DNNs 所需的試錯(cuò)次數(shù)。例如,它可以揭示任何給定模型的最佳超參數(shù),而不需要經(jīng)歷大量的時(shí)間和計(jì)算密集型實(shí)驗(yàn)。
《深度學(xué)習(xí)理論原理》將于 2022 年初由劍橋大學(xué)出版社出版,手稿現(xiàn)已公開(kāi)(在 “數(shù)據(jù)實(shí)戰(zhàn)派” 后臺(tái)回復(fù)關(guān)鍵詞 “DNN”,即可獲得 pdf 下載地址)。
斯坦福大學(xué)物理學(xué)教授 Eva Silverstein 說(shuō):“這本書提出了一種基于理論物理學(xué)中常見(jiàn)的擴(kuò)展機(jī)器學(xué)習(xí)方法??吹竭@些方法在理解和改進(jìn)人工智能方面的應(yīng)用,將是一件令人興奮的事情。”
這只是重塑人工智能科學(xué)漫漫長(zhǎng)路的第一步,這一項(xiàng)目既源自第一性原理,同時(shí)也專注于描述現(xiàn)實(shí)模型的實(shí)際工作方式。
如果成功的話,這種關(guān)于深度學(xué)習(xí)的普遍理論可能會(huì)讓更強(qiáng)大的人工智能模型成為可能,甚至可能指導(dǎo)我們建立一個(gè)研究智能的普遍方面的框架。
相互作用的神經(jīng)元
到目前為止,試圖理解 DNNs 的理論家通常將這種網(wǎng)絡(luò)理想化,他們假定 DNNs 的模型每層有無(wú)限數(shù)量的神經(jīng)元,即所謂的無(wú)限寬度限制。
就像理想氣體定律與真實(shí)氣體定律一樣,無(wú)限寬度的假設(shè)為理論分析提供了一個(gè)起點(diǎn)。但它與現(xiàn)實(shí)世界的深度學(xué)習(xí)模型幾乎沒(méi)有相似之處 —— 尤其是在具有 nontrivial 深度的神經(jīng)網(wǎng)絡(luò)中,這一假設(shè)將越來(lái)越偏離準(zhǔn)確的描述。
雖然這種無(wú)限寬度的限制有時(shí)很有用,但它過(guò)于簡(jiǎn)單,忽略了真正 DNNs 的許多關(guān)鍵特性,而正是這些特性使 DNNs 成為了如此強(qiáng)大的工具。
從物理學(xué)家的角度來(lái)研究這個(gè)問(wèn)題,《深度學(xué)習(xí)理論原理》通過(guò)提出一個(gè)有效的有限寬度 DNNs 理論,改進(jìn)了這種無(wú)限寬度的限制。
傳統(tǒng)上,物理學(xué)家的目標(biāo)是盡可能創(chuàng)建最簡(jiǎn)單、最理想的模型,還需要包含描述現(xiàn)實(shí)世界所需的最小復(fù)雜性。也就是說(shuō),這需要取消無(wú)限寬度的限制,并系統(tǒng)地結(jié)合所有需要的修正來(lái)考慮有限寬度的影響。用物理學(xué)的語(yǔ)言來(lái)說(shuō),這意味著在一層和跨層的神經(jīng)元之間將微小的相互作用建模。
這些聽(tīng)起來(lái)像是很小的改變,但是在現(xiàn)有的模型和書中描述的模型之間的結(jié)果是本質(zhì)上不同的。
想象一下兩個(gè)臺(tái)球同向相撞。如果使用一個(gè)類似于無(wú)限寬度限制的無(wú)交互模型來(lái)計(jì)算結(jié)果,你會(huì)發(fā)現(xiàn)兩個(gè)臺(tái)球正好穿過(guò)彼此,并沿各自的方向繼續(xù)運(yùn)動(dòng)。但很明顯,事實(shí)并非如此。兩個(gè)臺(tái)球不能占據(jù)相同的空間,所以它們會(huì)發(fā)生互相碰撞。
這些相互作用是防止我們從椅子上掉下來(lái),穿過(guò)地板,掉向地心的原因。這些相互作用在現(xiàn)實(shí)生活中很重要,它們?cè)谖锢碇泻苤匾?#xff0c;它們對(duì) DNNs 也很重要。
考慮到神經(jīng)元之間類似的相互作用,這本書的理論發(fā)現(xiàn) DNNs 的真正力量 —— 它們從數(shù)據(jù)中學(xué)習(xí)世界的表達(dá)能力,與它們的長(zhǎng)寬比 (即深度 / 寬度比) 成正比。
這一比率在無(wú)限寬模型中為零,因此這些玩具模型無(wú)法捕獲深度,而且隨著 DNNs 深度的增加,它們的描述越來(lái)越不準(zhǔn)確。相比之下,在有限寬度的神經(jīng)層中,有效的理論實(shí)際上會(huì)影響深度 —— 這對(duì)表征學(xué)習(xí)和 DNNs 的 D 至關(guān)重要。
“在物理學(xué)中,有效場(chǎng)論是理解粒子復(fù)雜相互作用的一種嚴(yán)謹(jǐn)而系統(tǒng)的方法,” 麻省理工學(xué)院物理學(xué)副教授、美國(guó)國(guó)家科學(xué)基金會(huì)人工智能和基本相互作用研究所主任 Jesse Thaler 說(shuō)。
“令人興奮的是,我們發(fā)現(xiàn)了一種類似嚴(yán)謹(jǐn)而系統(tǒng)的方法,可以用于理解深層網(wǎng)絡(luò)的動(dòng)態(tài)。受這些發(fā)展的啟發(fā),我期待著物理和人工智能社區(qū)之間更富有成效的對(duì)話?!?br />
探索人工智能 “黑盒子”
雖然書中描述的框架可以擴(kuò)展到現(xiàn)代人工智能社區(qū)使用的真實(shí)世界 DNNs,并為此提供了藍(lán)圖,但書本身主要關(guān)注的是最簡(jiǎn)單的深度學(xué)習(xí)模型 (深度多層感知器),并達(dá)到指導(dǎo)的目的。
應(yīng)用于這種最簡(jiǎn)單的結(jié)構(gòu),有效理論的方程可以得到系統(tǒng)的求解。這意味著我們可以對(duì) DNN 在整個(gè)訓(xùn)練軌跡上的行為有一個(gè)第一性原理的理解。
特別是,我們可以明確地寫下一個(gè)完全訓(xùn)練過(guò)的 DNN 正在計(jì)算的函數(shù),以便對(duì)新的測(cè)試?yán)舆M(jìn)行預(yù)測(cè)。
有了這個(gè)新的有效理論,我們希望理論家們能夠推動(dòng)對(duì)神經(jīng)網(wǎng)絡(luò)的更深入、更全面的理解。雖然還有很多東西需要計(jì)算,但這項(xiàng)工作有可能使該領(lǐng)域更接近于了解這些模型的哪些特定屬性使它們能夠智能地執(zhí)行計(jì)算。
我們也希望這本書能幫助人工智能社區(qū)減少有時(shí)會(huì)限制當(dāng)前進(jìn)展的反復(fù)試驗(yàn)。
我們想幫助從業(yè)者快速設(shè)計(jì)出更好的模型,讓其發(fā)揮更高效、更好的性能,更快的完成訓(xùn)練。特別是,那些設(shè)計(jì)的 DNNs 將能夠在沒(méi)有任何訓(xùn)練的情況下選擇最優(yōu)的超參數(shù),并選擇最優(yōu)的算法和模型架構(gòu)以獲得最佳結(jié)果。
多年來(lái),許多人認(rèn)為這些問(wèn)題永遠(yuǎn)無(wú)法得到回答或解釋。《深度學(xué)習(xí)理論原理》表明,人工智能不是一門無(wú)法解釋的技術(shù),實(shí)用的人工智能可以通過(guò)基本的科學(xué)原理來(lái)理解。
從理論走向?qū)嵺`
希望這只是個(gè)開(kāi)始。我們計(jì)劃繼續(xù)相關(guān)研究,將我們的理論框架擴(kuò)展到其他模型架構(gòu),并獲得新的結(jié)果。在更廣泛的層面上,我們希望這本書能證明理論可以提供對(duì)實(shí)際利益的真實(shí)模型的理解。
“科學(xué)技術(shù)史上,工程制品往往是最先出現(xiàn)的:望遠(yuǎn)鏡、蒸汽機(jī)、數(shù)字通信。
解釋它的功能和局限性的理論通常是后來(lái)才出現(xiàn)的:折射定律、熱力學(xué)和信息論?!盕acebook 副總裁兼首席人工智能科學(xué)家 Yann LeCun 說(shuō)道。
“隨著深度學(xué)習(xí)的出現(xiàn),人工智能工程奇跡進(jìn)入了我們的生活,但我們對(duì)深度學(xué)習(xí)的力量和局限性的理論理解仍然是片面的。這是最早致力于深度學(xué)習(xí)理論的書籍之一,并以連貫的方式列出了最新的理論方法和結(jié)果?!?/p>
近年來(lái),各種實(shí)例應(yīng)用推動(dòng)人工智能到了新的高度,我們堅(jiān)信實(shí)踐有了理論的支撐可以幫助加快人工智能研究,并可能導(dǎo)致發(fā)現(xiàn)領(lǐng)域,正如統(tǒng)計(jì)力學(xué)推動(dòng)了信息時(shí)代的到來(lái)一樣,我們對(duì)此充滿期待。
Reference:
1、https://ai.facebook.com/blog/advancing-ai-theory-with-a-first-principles-understanding-of-deep-neural-networks/
往期精彩回顧適合初學(xué)者入門人工智能的路線及資料下載機(jī)器學(xué)習(xí)及深度學(xué)習(xí)筆記等資料打印機(jī)器學(xué)習(xí)在線手冊(cè)深度學(xué)習(xí)筆記專輯《統(tǒng)計(jì)學(xué)習(xí)方法》的代碼復(fù)現(xiàn)專輯 AI基礎(chǔ)下載機(jī)器學(xué)習(xí)的數(shù)學(xué)基礎(chǔ)專輯溫州大學(xué)《機(jī)器學(xué)習(xí)課程》視頻 本站qq群851320808,加入微信群請(qǐng)掃碼:總結(jié)
以上是生活随笔為你收集整理的【深度学习】449页pdf,FaceBook称其迈出“重塑AI科学的第一步”的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 火爆全网的迁移学习简明手册全面更新,重磅
- 下一篇: 【机器学习】关于机器学习模型可解释(XA