當(dāng)前位置：首頁(yè) > 人工智能 > ChatGpt >内容正文

ChatGpt

【深度学习】449页pdf，FaceBook称其迈出“重塑AI科学的第一步”

發(fā)布時(shí)間：2025/3/12 ChatGpt 29 豆豆

生活随笔收集整理的這篇文章主要介紹了【深度学习】449页pdf，FaceBook称其迈出“重塑AI科学的第一步” 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

原文：Advancing AI theory with a first-principles understanding of deep neural networks

作者：FaceBook AI

譯者：Hugo

18 世紀(jì)末到?19 世紀(jì)初，英國(guó)人瓦特改良了蒸汽機(jī)，這也為工業(yè)革命提供了動(dòng)力，并徹底改變了制造業(yè)。接下來(lái)的一個(gè)世紀(jì)，熱力學(xué)定律和統(tǒng)計(jì)力學(xué)原理得到發(fā)展，科學(xué)家們才能夠在理論層面上全面解釋蒸汽機(jī)的工作原理和工作過(guò)程。

當(dāng)然，缺乏理論理解并沒(méi)有阻止人們對(duì)蒸汽機(jī)的改進(jìn)，熱機(jī)原理的發(fā)現(xiàn)促使這些改進(jìn)更加迅速。當(dāng)科學(xué)家們掌握了統(tǒng)計(jì)力學(xué)之后，很快就制造出了更好、更高效的發(fā)動(dòng)機(jī)。統(tǒng)計(jì)力學(xué)使人們認(rèn)識(shí)到物質(zhì)是由原子構(gòu)成的，它是量子力學(xué)的發(fā)展起源，甚至也推動(dòng)了我們今天使用的為計(jì)算機(jī)提供動(dòng)力的晶體管的發(fā)展。

如今，人工智能正處于類似的關(guān)頭。深度神經(jīng)網(wǎng)絡(luò) (DNNs) 是現(xiàn)代人工智能研究的一部分，從某種角度來(lái)說(shuō)，它目前也是一個(gè) “黑盒子”。

盡管人工智能從業(yè)者取得了重大進(jìn)展，但業(yè)界普遍認(rèn)為 DNNs 過(guò)于復(fù)雜，無(wú)法從基本原理來(lái)解釋。目前的神經(jīng)網(wǎng)絡(luò)模型在很大程度上是通過(guò)反復(fù)試驗(yàn)來(lái)調(diào)整的，雖然反復(fù)試驗(yàn)可以通過(guò)多年的經(jīng)驗(yàn)進(jìn)行，但卻沒(méi)有任何統(tǒng)一的理論語(yǔ)言來(lái)描述 DNNs 及其功能。

現(xiàn)在，我們即將出版《深度學(xué)習(xí)理論原理：理解神經(jīng)網(wǎng)絡(luò)的有效理論方法》（The Principles of Deep Learning Theory An Effective Theory Approach to Understanding Neural Networks）一書，該研究由 Facebook AI 研究院的 Sho Yaida、麻省理工學(xué)院和 Salesforce 的 Dan Roberts 以及普林斯頓的 Boris Hanin 共同完成。

Sho Yaida、Dan Roberts、Boris Hanin

這本書提供了一個(gè)理論框架，從第一性原理來(lái)理解 DNNs。對(duì)于人工智能從業(yè)者來(lái)說(shuō)，這種理解可以顯著減少訓(xùn)練這些 DNNs 所需的試錯(cuò)次數(shù)。例如，它可以揭示任何給定模型的最佳超參數(shù)，而不需要經(jīng)歷大量的時(shí)間和計(jì)算密集型實(shí)驗(yàn)。

《深度學(xué)習(xí)理論原理》將于 2022 年初由劍橋大學(xué)出版社出版，手稿現(xiàn)已公開(kāi)（在 “數(shù)據(jù)實(shí)戰(zhàn)派” 后臺(tái)回復(fù)關(guān)鍵詞 “DNN”，即可獲得 pdf 下載地址）。

斯坦福大學(xué)物理學(xué)教授 Eva Silverstein 說(shuō):“這本書提出了一種基于理論物理學(xué)中常見(jiàn)的擴(kuò)展機(jī)器學(xué)習(xí)方法?？吹竭@些方法在理解和改進(jìn)人工智能方面的應(yīng)用，將是一件令人興奮的事情。”

這只是重塑人工智能科學(xué)漫漫長(zhǎng)路的第一步，這一項(xiàng)目既源自第一性原理，同時(shí)也專注于描述現(xiàn)實(shí)模型的實(shí)際工作方式。

如果成功的話，這種關(guān)于深度學(xué)習(xí)的普遍理論可能會(huì)讓更強(qiáng)大的人工智能模型成為可能，甚至可能指導(dǎo)我們建立一個(gè)研究智能的普遍方面的框架。

相互作用的神經(jīng)元

到目前為止，試圖理解 DNNs 的理論家通常將這種網(wǎng)絡(luò)理想化，他們假定 DNNs 的模型每層有無(wú)限數(shù)量的神經(jīng)元，即所謂的無(wú)限寬度限制。

就像理想氣體定律與真實(shí)氣體定律一樣，無(wú)限寬度的假設(shè)為理論分析提供了一個(gè)起點(diǎn)。但它與現(xiàn)實(shí)世界的深度學(xué)習(xí)模型幾乎沒(méi)有相似之處 —— 尤其是在具有 nontrivial 深度的神經(jīng)網(wǎng)絡(luò)中，這一假設(shè)將越來(lái)越偏離準(zhǔn)確的描述。

雖然這種無(wú)限寬度的限制有時(shí)很有用，但它過(guò)于簡(jiǎn)單，忽略了真正 DNNs 的許多關(guān)鍵特性，而正是這些特性使 DNNs 成為了如此強(qiáng)大的工具。

從物理學(xué)家的角度來(lái)研究這個(gè)問(wèn)題，《深度學(xué)習(xí)理論原理》通過(guò)提出一個(gè)有效的有限寬度 DNNs 理論，改進(jìn)了這種無(wú)限寬度的限制。

傳統(tǒng)上，物理學(xué)家的目標(biāo)是盡可能創(chuàng)建最簡(jiǎn)單、最理想的模型，還需要包含描述現(xiàn)實(shí)世界所需的最小復(fù)雜性。也就是說(shuō)，這需要取消無(wú)限寬度的限制，并系統(tǒng)地結(jié)合所有需要的修正來(lái)考慮有限寬度的影響。用物理學(xué)的語(yǔ)言來(lái)說(shuō)，這意味著在一層和跨層的神經(jīng)元之間將微小的相互作用建模。

這些聽(tīng)起來(lái)像是很小的改變，但是在現(xiàn)有的模型和書中描述的模型之間的結(jié)果是本質(zhì)上不同的。

想象一下兩個(gè)臺(tái)球同向相撞。如果使用一個(gè)類似于無(wú)限寬度限制的無(wú)交互模型來(lái)計(jì)算結(jié)果，你會(huì)發(fā)現(xiàn)兩個(gè)臺(tái)球正好穿過(guò)彼此，并沿各自的方向繼續(xù)運(yùn)動(dòng)。但很明顯，事實(shí)并非如此。兩個(gè)臺(tái)球不能占據(jù)相同的空間，所以它們會(huì)發(fā)生互相碰撞。

這些相互作用是防止我們從椅子上掉下來(lái)，穿過(guò)地板，掉向地心的原因。這些相互作用在現(xiàn)實(shí)生活中很重要，它們?cè)谖锢碇泻苤匾?#xff0c;它們對(duì) DNNs 也很重要。

考慮到神經(jīng)元之間類似的相互作用，這本書的理論發(fā)現(xiàn) DNNs 的真正力量 —— 它們從數(shù)據(jù)中學(xué)習(xí)世界的表達(dá)能力，與它們的長(zhǎng)寬比 (即深度 / 寬度比) 成正比。

這一比率在無(wú)限寬模型中為零，因此這些玩具模型無(wú)法捕獲深度，而且隨著 DNNs 深度的增加，它們的描述越來(lái)越不準(zhǔn)確。相比之下，在有限寬度的神經(jīng)層中，有效的理論實(shí)際上會(huì)影響深度 —— 這對(duì)表征學(xué)習(xí)和 DNNs 的 D 至關(guān)重要。

“在物理學(xué)中，有效場(chǎng)論是理解粒子復(fù)雜相互作用的一種嚴(yán)謹(jǐn)而系統(tǒng)的方法，” 麻省理工學(xué)院物理學(xué)副教授、美國(guó)國(guó)家科學(xué)基金會(huì)人工智能和基本相互作用研究所主任 Jesse Thaler 說(shuō)。

“令人興奮的是，我們發(fā)現(xiàn)了一種類似嚴(yán)謹(jǐn)而系統(tǒng)的方法，可以用于理解深層網(wǎng)絡(luò)的動(dòng)態(tài)。受這些發(fā)展的啟發(fā)，我期待著物理和人工智能社區(qū)之間更富有成效的對(duì)話?！?br />

探索人工智能 “黑盒子”

雖然書中描述的框架可以擴(kuò)展到現(xiàn)代人工智能社區(qū)使用的真實(shí)世界 DNNs，并為此提供了藍(lán)圖，但書本身主要關(guān)注的是最簡(jiǎn)單的深度學(xué)習(xí)模型 (深度多層感知器)，并達(dá)到指導(dǎo)的目的。

應(yīng)用于這種最簡(jiǎn)單的結(jié)構(gòu)，有效理論的方程可以得到系統(tǒng)的求解。這意味著我們可以對(duì) DNN 在整個(gè)訓(xùn)練軌跡上的行為有一個(gè)第一性原理的理解。

特別是，我們可以明確地寫下一個(gè)完全訓(xùn)練過(guò)的 DNN 正在計(jì)算的函數(shù)，以便對(duì)新的測(cè)試?yán)舆M(jìn)行預(yù)測(cè)。

有了這個(gè)新的有效理論，我們希望理論家們能夠推動(dòng)對(duì)神經(jīng)網(wǎng)絡(luò)的更深入、更全面的理解。雖然還有很多東西需要計(jì)算，但這項(xiàng)工作有可能使該領(lǐng)域更接近于了解這些模型的哪些特定屬性使它們能夠智能地執(zhí)行計(jì)算。

我們也希望這本書能幫助人工智能社區(qū)減少有時(shí)會(huì)限制當(dāng)前進(jìn)展的反復(fù)試驗(yàn)。

我們想幫助從業(yè)者快速設(shè)計(jì)出更好的模型，讓其發(fā)揮更高效、更好的性能，更快的完成訓(xùn)練。特別是，那些設(shè)計(jì)的 DNNs 將能夠在沒(méi)有任何訓(xùn)練的情況下選擇最優(yōu)的超參數(shù)，并選擇最優(yōu)的算法和模型架構(gòu)以獲得最佳結(jié)果。

多年來(lái)，許多人認(rèn)為這些問(wèn)題永遠(yuǎn)無(wú)法得到回答或解釋。《深度學(xué)習(xí)理論原理》表明，人工智能不是一門無(wú)法解釋的技術(shù)，實(shí)用的人工智能可以通過(guò)基本的科學(xué)原理來(lái)理解。

從理論走向?qū)嵺`

希望這只是個(gè)開(kāi)始。我們計(jì)劃繼續(xù)相關(guān)研究，將我們的理論框架擴(kuò)展到其他模型架構(gòu)，并獲得新的結(jié)果。在更廣泛的層面上，我們希望這本書能證明理論可以提供對(duì)實(shí)際利益的真實(shí)模型的理解。

“科學(xué)技術(shù)史上，工程制品往往是最先出現(xiàn)的：望遠(yuǎn)鏡、蒸汽機(jī)、數(shù)字通信。

解釋它的功能和局限性的理論通常是后來(lái)才出現(xiàn)的：折射定律、熱力學(xué)和信息論?！盕acebook 副總裁兼首席人工智能科學(xué)家 Yann LeCun 說(shuō)道。

“隨著深度學(xué)習(xí)的出現(xiàn)，人工智能工程奇跡進(jìn)入了我們的生活，但我們對(duì)深度學(xué)習(xí)的力量和局限性的理論理解仍然是片面的。這是最早致力于深度學(xué)習(xí)理論的書籍之一，并以連貫的方式列出了最新的理論方法和結(jié)果?！?/p>

近年來(lái)，各種實(shí)例應(yīng)用推動(dòng)人工智能到了新的高度，我們堅(jiān)信實(shí)踐有了理論的支撐可以幫助加快人工智能研究，并可能導(dǎo)致發(fā)現(xiàn)領(lǐng)域，正如統(tǒng)計(jì)力學(xué)推動(dòng)了信息時(shí)代的到來(lái)一樣，我們對(duì)此充滿期待。

Reference：

1、https://ai.facebook.com/blog/advancing-ai-theory-with-a-first-principles-understanding-of-deep-neural-networks/

往期精彩回顧適合初學(xué)者入門人工智能的路線及資料下載機(jī)器學(xué)習(xí)及深度學(xué)習(xí)筆記等資料打印機(jī)器學(xué)習(xí)在線手冊(cè)深度學(xué)習(xí)筆記專輯《統(tǒng)計(jì)學(xué)習(xí)方法》的代碼復(fù)現(xiàn)專輯 AI基礎(chǔ)下載機(jī)器學(xué)習(xí)的數(shù)學(xué)基礎(chǔ)專輯溫州大學(xué)《機(jī)器學(xué)習(xí)課程》視頻本站qq群851320808，加入微信群請(qǐng)掃碼：

總結(jié)

以上是生活随笔為你收集整理的【深度学习】449页pdf，FaceBook称其迈出“重塑AI科学的第一步”的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：火爆全网的迁移学习简明手册全面更新，重磅
下一篇：【机器学习】关于机器学习模型可解释(XA