从阿尔法元的诞生看终极算法的可能性
2017-10-22 15:22????來(lái)源:大數(shù)據(jù)文摘
作者:杜圣東
1923年,愛因斯坦在他的諾貝爾得獎(jiǎng)感言中說(shuō)到:“我欲探索一個(gè)統(tǒng)整理論的理智思維,是無(wú)法滿足于存在有兩個(gè)本質(zhì)彼此完全獨(dú)立的領(lǐng)域之假設(shè)”。這句話有點(diǎn)拗口,主要意思是,愛因斯坦認(rèn)為自然科學(xué)中“統(tǒng)一”的概念或許是一個(gè)最基本的法則。后來(lái)直到去世,愛因斯坦都在致力于尋求一種能將引力場(chǎng)與電磁場(chǎng),相對(duì)論與量子論統(tǒng)一起來(lái)的統(tǒng)一場(chǎng)理論。后來(lái)霍金在《時(shí)間簡(jiǎn)史》中也指出了大統(tǒng)一理論的可能性 ,他認(rèn)為也許會(huì)發(fā)現(xiàn)大統(tǒng)一理論。雖然迄今為止統(tǒng)一場(chǎng)論都尚未得到發(fā)現(xiàn)驗(yàn)證,但對(duì)常人的理解來(lái)講,通過(guò)一個(gè)簡(jiǎn)單美妙的公式就能預(yù)測(cè)和描述宇宙萬(wàn)事萬(wàn)物,不異于天方夜譚。
同樣,在人工智能領(lǐng)域,要真正實(shí)現(xiàn)專家們口中的超人工智能(SuperAI),也還有極漫長(zhǎng)的路要走。有沒有一種終極算法,能讓人類一步到位設(shè)計(jì)出超人類的AI系統(tǒng)?這跟愛因斯坦提出的統(tǒng)一場(chǎng)論一樣,還面臨著理論與設(shè)計(jì)實(shí)現(xiàn)的巨大挑戰(zhàn)。今年LeCun(FaceBook AI實(shí)驗(yàn)室負(fù)責(zé)人)曾說(shuō)到:“絕大多數(shù)人類和動(dòng)物的學(xué)習(xí)方式是非監(jiān)督學(xué)習(xí)。如果智能是個(gè)蛋糕,非監(jiān)督學(xué)習(xí)才是蛋糕主體,監(jiān)督學(xué)習(xí)只能說(shuō)是蛋糕上的糖霜奶油,而強(qiáng)化學(xué)習(xí)只是蛋糕上點(diǎn)綴的櫻桃。現(xiàn)在我們知道如何制作“糖霜奶油”和上面的“櫻桃”, 但并不知道如何制作蛋糕主體。我們必須先解決關(guān)于非監(jiān)督學(xué)習(xí)的問(wèn)題,才能開始考慮如何做出一個(gè)真正的AI。這還僅僅是我們所知的難題之一。更何況那些我們未知的難題呢?”正如LeCun所說(shuō),未來(lái)解碼人類學(xué)習(xí)方式的關(guān)鍵突破性技術(shù),很可能會(huì)由無(wú)監(jiān)督學(xué)習(xí)來(lái)完成,因?yàn)闊o(wú)監(jiān)督才是人類和動(dòng)物學(xué)習(xí)的關(guān)鍵模式,嬰幼兒通過(guò)少量有監(jiān)督學(xué)習(xí)訓(xùn)練之后,在后續(xù)幾十年的成長(zhǎng)過(guò)程中,能夠觀察并發(fā)現(xiàn)世界的內(nèi)在結(jié)構(gòu)和獲得經(jīng)驗(yàn)知識(shí),都是一種無(wú)監(jiān)督的自發(fā)主動(dòng)的學(xué)習(xí)模式,而不是像小時(shí)候被父母告知每項(xiàng)事物的名稱和意義。要攻破無(wú)監(jiān)督學(xué)習(xí)這座AI堡壘,貌似在短期內(nèi)不可能。但就在昨天,Nature發(fā)布了Deepmind關(guān)于阿爾法狗元(AlphaGoZero)的文章,在科技圈引起了不小轟動(dòng),貌似LeCun口中的“櫻桃”(強(qiáng)化學(xué)習(xí))大放異彩,使得AI向無(wú)監(jiān)督自我學(xué)習(xí)進(jìn)化又邁出了一大步。本文就來(lái)談?wù)?#xff0c;要實(shí)現(xiàn)SuperAI和終極算法的可能性,兼論阿爾法狗元從0到1的重大意義,貌似開了一個(gè)好頭。
阿爾法狗元(AlphaGo Zero)的橫空出世
最近幾年,人工智能的研究和應(yīng)用,從語(yǔ)音識(shí)別、圖像分類到基因組學(xué)和藥物發(fā)現(xiàn)等多個(gè)領(lǐng)域取得了快速進(jìn)展。這得益于大數(shù)據(jù)和深度學(xué)習(xí)的有力支持。可以這么講,這波AI大躍進(jìn)多是數(shù)據(jù)驅(qū)動(dòng)的AI,沒有大數(shù)據(jù)的喂養(yǎng),沒有GPU算力的普及化,就沒有深度學(xué)習(xí)的成功。數(shù)據(jù)驅(qū)動(dòng)的AI離不開大數(shù)據(jù),大數(shù)據(jù)與AI形成一種共生關(guān)系:一方面,AI基礎(chǔ)理論技術(shù)的發(fā)展為大數(shù)據(jù)機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘提供了更豐富的模型和算法,如深度網(wǎng)絡(luò)衍生出的一系列相關(guān)技術(shù)(深度學(xué)習(xí)、強(qiáng)化學(xué)習(xí)、遷移學(xué)習(xí)、對(duì)抗學(xué)習(xí)等)和方法;另一方面,大數(shù)據(jù)為AI的發(fā)展提供了新的動(dòng)力和燃料,數(shù)據(jù)規(guī)模大了之后,傳統(tǒng)機(jī)器學(xué)習(xí)算法面臨巨大挑戰(zhàn),要做并行化、要加速、要改進(jìn)。當(dāng)前的弱AI應(yīng)用都遵從這一技術(shù)路線,大數(shù)據(jù)、深度學(xué)習(xí)和GPU計(jì)算居功至偉。然而,這些利用了大量人力、物力資源和海量數(shù)據(jù)的AI系統(tǒng)。卻很難擴(kuò)展到通用AI的程度,更不必說(shuō)超AI了,比如ImageNet的上千萬(wàn)張圖片訓(xùn)練出的AI系統(tǒng),卻無(wú)法對(duì)醫(yī)療和自動(dòng)駕駛領(lǐng)域產(chǎn)生同樣重大的作用。需要另起爐灶,重新花大量人力物力進(jìn)行針對(duì)性的數(shù)據(jù)標(biāo)注和AI系統(tǒng)建設(shè)。類似這些問(wèn)題,對(duì)人類歷史經(jīng)驗(yàn)數(shù)據(jù)太過(guò)依賴,而這種大數(shù)據(jù)知識(shí)成本昂貴,或不可靠,或根本無(wú)法使用。因此,Super AI的研究必須要能繞過(guò)大數(shù)據(jù),通過(guò)解碼人腦智能學(xué)習(xí)機(jī)理,才能創(chuàng)造出一種終極算法。而阿爾狗元的橫空出世,向我們展現(xiàn)了邁向這一目標(biāo)的可能性。不需要上百萬(wàn)盤歷史棋譜數(shù)據(jù),僅訓(xùn)練3天(自己左右互搏490萬(wàn)棋局),只需要4片TPU就戰(zhàn)勝了舊版AlphaGo 系統(tǒng),而比分是100:0;舊版阿爾法狗采用了48片TPU,需要花幾個(gè)月學(xué)習(xí)幾千萬(wàn)盤棋局才完全戰(zhàn)勝人類。以致于柯潔面對(duì)新版的阿爾法狗元,發(fā)表了如下無(wú)力吐槽。
阿爾法狗元的智能解碼
阿爾狗元為什么能在如此短的時(shí)間,有如此驚人的進(jìn)步?下面我們來(lái)分析下新版阿爾法狗元的智能“級(jí)數(shù)”。關(guān)于智能,古今中外許多哲學(xué)家、腦科學(xué)家都一直在努力探索和研究,但至今仍然沒有完全了解,可以說(shuō)理解甚少。所以有,智能的發(fā)生與物質(zhì)的本質(zhì)、宇宙的起源、生命的本質(zhì)一起被列為自然界四大奧秘。隨著腦科學(xué)、神經(jīng)心理學(xué)等研究的進(jìn)展,我們對(duì)人腦的結(jié)構(gòu)和功能有了初步認(rèn)識(shí),但對(duì)整個(gè)神經(jīng)系統(tǒng)的內(nèi)部結(jié)構(gòu)和作用機(jī)制,特別是大腦的功能原理卻知之甚少。在這樣一個(gè)大背景下,深度學(xué)習(xí)的階段性成功,可謂是誤打誤撞。深度學(xué)習(xí)也被很多專家稱為類腦學(xué)習(xí),其實(shí)不夠嚴(yán)謹(jǐn),最多算是類人腦視覺皮層學(xué)習(xí),簡(jiǎn)單的神經(jīng)元連接結(jié)構(gòu)離完全模擬人腦還差十萬(wàn)八千里。但換個(gè)角度看,才入門就有了奇效?解碼人腦的學(xué)習(xí)記憶機(jī)制才能設(shè)計(jì)出終極算法么?這個(gè)答案仁者見仁智者見智,且看后文分解。
舊版AlphaGo采用的核心技術(shù)是基于深度學(xué)習(xí)+強(qiáng)化學(xué)習(xí)+蒙特卡洛樹決策的組合式學(xué)習(xí)方法,也可以說(shuō)是學(xué)習(xí)框架,其已經(jīng)摸到了類腦學(xué)習(xí)的大門,其學(xué)習(xí)下棋分為三個(gè)階段:(1)通過(guò)對(duì)歷史棋譜的深度學(xué)習(xí)完成策略網(wǎng)絡(luò)的構(gòu)建,采用深度學(xué)習(xí)技術(shù)訓(xùn)練一種有監(jiān)督學(xué)習(xí)型走棋策略網(wǎng)絡(luò),類似于我們的觀察學(xué)習(xí)獲得的第一反應(yīng)。(2)通過(guò)自我對(duì)戰(zhàn)強(qiáng)化學(xué)習(xí)來(lái)提高博弈水平,采用強(qiáng)化學(xué)習(xí)技術(shù)來(lái)優(yōu)化先前的走棋策略網(wǎng)絡(luò),通過(guò)自我博弈的強(qiáng)化學(xué)習(xí)迭代結(jié)果,來(lái)提升前面的策略網(wǎng)絡(luò)。即與之前的“自己”不間斷訓(xùn)練以提高下棋的水平,這個(gè)過(guò)程有點(diǎn)類似于人類的鞏固學(xué)習(xí)和理解貫通階段。(3)通過(guò)深度回歸學(xué)習(xí)構(gòu)建估值網(wǎng)絡(luò),用來(lái)預(yù)測(cè)自我博弈強(qiáng)化學(xué)習(xí)數(shù)據(jù)集里局面的預(yù)期結(jié)果,即預(yù)測(cè)那個(gè)策略網(wǎng)絡(luò)的局面會(huì)成為贏家。結(jié)合蒙特卡洛樹(MCTS)搜索壓縮搜索空間,降低了搜索時(shí)間復(fù)雜度, MCTS決策有效結(jié)合了策略網(wǎng)絡(luò)和估值網(wǎng)絡(luò),類似于人類的判斷決策過(guò)程。而新版的AlphaGo Zero做了較大改進(jìn),一是跳過(guò)了第一個(gè)階段,完全拋棄了歷史棋譜的學(xué)習(xí),訓(xùn)練學(xué)習(xí)從無(wú)到有;二是改進(jìn)了原強(qiáng)化學(xué)習(xí)的形式,只使用一個(gè)神經(jīng)網(wǎng)絡(luò)而不是兩個(gè)神經(jīng)網(wǎng)絡(luò),通過(guò)將這個(gè)神經(jīng)網(wǎng)絡(luò)與MCTS搜索算法相結(jié)合,通過(guò)左右互搏自?shī)首詷?#xff0c;按設(shè)定的走棋規(guī)則隨機(jī)開始圍棋小白式的學(xué)習(xí),靠激勵(lì)、懲罰的強(qiáng)化學(xué)習(xí)機(jī)制來(lái)糾正學(xué)習(xí)過(guò)程中的錯(cuò)誤,調(diào)整提升學(xué)習(xí)能力。這種機(jī)制已經(jīng)很接近完全無(wú)監(jiān)督學(xué)習(xí),擺脫了對(duì)人類標(biāo)注數(shù)據(jù)的依賴(歷史棋譜)。這也是為什么阿爾法狗元能以100:0戰(zhàn)勝舊版阿爾法狗的原因,只靠模仿和師傅教是很難在較短時(shí)間內(nèi)超越師傅的,而周伯通能成為武林頂尖高手,就是因?yàn)樗奈涔χ豢吭瓌?chuàng)從不模仿。
DeepMind AlphaGo項(xiàng)目首席研究員大衛(wèi).西爾弗(David Silver,左)與CEO德米斯.哈比斯(Demis Hassabis)
有點(diǎn)扯遠(yuǎn)了。回到正題,對(duì)于阿爾法狗元,我們先提兩個(gè)問(wèn)題:(1)阿爾法狗元既然能有如此進(jìn)步,為什么創(chuàng)始人在原來(lái)沒有想到?(2)阿爾法狗元還有一個(gè)梗,使其還有較大的智能瓶頸,這個(gè)瓶頸是什么?第一個(gè)問(wèn)題很好理解,阿爾法狗的創(chuàng)始人哈比斯(如上圖)從小就是圍棋迷,圍棋迷是很難說(shuō)跳出圍棋看圍棋的,所以他設(shè)計(jì)的系統(tǒng)首先是對(duì)歷史棋譜進(jìn)行有監(jiān)督訓(xùn)練學(xué)習(xí),通過(guò)吸收人類棋譜數(shù)據(jù)中的經(jīng)驗(yàn)學(xué)習(xí)下棋,觀看數(shù)千場(chǎng)比賽,并被告知人類專家在某些位置上的特定動(dòng)作,這也是一般人成為武林高手的必經(jīng)之路。而David Silver提出的改進(jìn)版AlphaGo Zero使用了一種新的強(qiáng)化學(xué)習(xí)形式,跳出圍棋歷史經(jīng)驗(yàn)來(lái)下棋,在這一過(guò)程中,全靠自學(xué)。采用一個(gè)對(duì)圍棋一無(wú)所知的神經(jīng)網(wǎng)絡(luò),它會(huì)與自己進(jìn)行數(shù)千場(chǎng)對(duì)弈。它所走的每一步棋就是把這個(gè)神經(jīng)網(wǎng)絡(luò)與強(qiáng)大的搜索算法結(jié)合起來(lái),然后用它來(lái)選擇下一個(gè)動(dòng)作。在每場(chǎng)對(duì)弈結(jié)束后,AlphaGo Zero實(shí)際上都訓(xùn)練了一個(gè)新的神經(jīng)網(wǎng)絡(luò),這種無(wú)師自通的學(xué)習(xí)方式能加速學(xué)習(xí)能力的迭代,所以才有如此成績(jī)。針對(duì)第二個(gè)問(wèn)題,顯然AlphaGo Zero這種不參考專業(yè)數(shù)據(jù)和歷史經(jīng)驗(yàn)的學(xué)習(xí)方式,消除了人類學(xué)習(xí)依靠歷史經(jīng)驗(yàn)和知識(shí)的局限性,未來(lái)即使是弱AI,形勢(shì)一定比人強(qiáng),理論上講,任何可以明確定義規(guī)則和設(shè)定目標(biāo)的問(wèn)題或工作都能被AI取代,唯一的瓶頸就是這個(gè)規(guī)則,如何有效地定義規(guī)則和目標(biāo)?圍棋的走法貌似隨意但卻有通用規(guī)則,棋盤格局對(duì)于殘差卷積模塊來(lái)講也很友好,其實(shí)這個(gè)改進(jìn)思想跟采用GAN自我對(duì)戰(zhàn)打游戲是類似的(OpenAI已經(jīng)開發(fā)出了一款A(yù)I,可以在沒有任何人工輸入的情況下,自學(xué)如何玩電腦游戲)。我們看不管是下棋還是玩游戲,都有容易形式化的規(guī)則,而人類的大部分工作,特別是在數(shù)字化、信息化的大背景下,未來(lái)被AI替代很可能是分分鐘的事情,如翻譯、交易、駕駛、會(huì)計(jì)、審計(jì)等等。但對(duì)需要多方博弈決策方面的事務(wù)來(lái)講,這種級(jí)別的AI還是無(wú)能為力的,當(dāng)然也還談不上類腦智能。
終極算法:統(tǒng)一場(chǎng)論的AI版
要實(shí)現(xiàn)真正的AI,是否需要一種終極算法?在筆者看來(lái),愛因斯坦的統(tǒng)一場(chǎng)論是為了解碼宇宙客觀事物運(yùn)行的本質(zhì)規(guī)律;而終極算法就是為了解碼人類智能的本體、本源和統(tǒng)一機(jī)理。靠一系列面向特定任務(wù)的算法和龐大子系統(tǒng)進(jìn)行組合形成的智能體,當(dāng)然可以在一定程度上具有智能,但要達(dá)到通用AI、超AI的水平,個(gè)人認(rèn)為這條路不可行。首先我們看下傳統(tǒng)算法、機(jī)器學(xué)習(xí)算法和終極算法三者的區(qū)別:(1)傳統(tǒng)算法:將數(shù)據(jù)輸入到計(jì)算機(jī),計(jì)算機(jī)利用設(shè)計(jì)好的算法來(lái)進(jìn)行計(jì)算處理,最終輸出需要的結(jié)果,比如金融自動(dòng)交易,需要設(shè)計(jì)算法實(shí)現(xiàn)交易公式、規(guī)則的計(jì)算,輸入數(shù)據(jù)按照設(shè)計(jì)好的規(guī)則進(jìn)行計(jì)算處理和結(jié)果輸出;(2)機(jī)器學(xué)習(xí):機(jī)器學(xué)習(xí)算法不需要通過(guò)編程設(shè)定計(jì)算規(guī)則,而是把數(shù)據(jù)直接輸入到模型中(包括輸入數(shù)據(jù)和標(biāo)簽輸出數(shù)據(jù)),模型經(jīng)過(guò)訓(xùn)練獲得預(yù)測(cè)優(yōu)化的參數(shù),最終構(gòu)建好具有一定預(yù)測(cè)能力和穩(wěn)定性的機(jī)器學(xué)習(xí)模型;(3)終極算法:終極算法的一個(gè)前提假設(shè)是,所有知識(shí),無(wú)論是過(guò)去、現(xiàn)在還是未來(lái)的,都有可能通過(guò)單個(gè)通用學(xué)習(xí)算法來(lái)從數(shù)據(jù)或環(huán)境中獲得,這種算法稱為終極算法。機(jī)器學(xué)習(xí)算法的首要任務(wù)是區(qū)別可以預(yù)測(cè)的事與不可預(yù)測(cè)的事。終極算法的目標(biāo)則是學(xué)習(xí)一切能夠認(rèn)知的東西,在機(jī)器學(xué)習(xí)中,復(fù)雜性存在于數(shù)據(jù)中,而終極算法要做的就是通過(guò)擬合數(shù)據(jù)或拋開數(shù)據(jù)和環(huán)境交互來(lái)消化理解這種復(fù)雜性。
幾十年來(lái),機(jī)器學(xué)習(xí)算法研究的五大門派(如上圖)一直以來(lái)都在彼此爭(zhēng)奪主導(dǎo)權(quán)。 (1)符號(hào)派:使用符號(hào)、規(guī)則和邏輯來(lái)表征知識(shí)和進(jìn)行邏輯推理,最喜歡的算法是:規(guī)則和決策樹。(2)貝葉斯派:獲取發(fā)生的可能性來(lái)進(jìn)行概率推理,最喜歡的算法是:樸素貝葉斯或馬爾可夫。(3)進(jìn)化派:生成變化,然后為特定目標(biāo)獲取其中最優(yōu)的,最喜歡的算法是:遺傳算法。(4)類推派:根據(jù)約束條件來(lái)優(yōu)化函數(shù)(盡可能走到更高,但同時(shí)不要離開道路),最喜歡的算法是:支持向量機(jī)。(5)聯(lián)結(jié)派:使用概率矩陣和加權(quán)神經(jīng)元來(lái)動(dòng)態(tài)地識(shí)別和歸納模式,最喜歡的算法是:神經(jīng)網(wǎng)絡(luò)。上述傳統(tǒng)算法和各大門派的機(jī)器學(xué)習(xí)算法需要人類知識(shí)、規(guī)則、經(jīng)驗(yàn)和數(shù)據(jù)的支持,是一種歸納和演繹學(xué)習(xí)的范疇,這種學(xué)習(xí)受限于數(shù)據(jù)本身,即使是大數(shù)據(jù)也不能全樣本覆蓋,而且包含各種噪音、錯(cuò)誤或有偏見的數(shù)據(jù),這樣使得學(xué)習(xí)出來(lái)的模型也很難是最優(yōu)的。而終極算法要能進(jìn)行自我創(chuàng)造和學(xué)習(xí),根據(jù)學(xué)習(xí)目標(biāo)去自我創(chuàng)造樣本、自我學(xué)習(xí)來(lái)加深對(duì)事物的理解從而獲得學(xué)習(xí)能力,這才是真正的智能。能否實(shí)現(xiàn)終極算法,怎么實(shí)現(xiàn)終極算法,下面從阿爾狗元的強(qiáng)化學(xué)習(xí)、人類大腦新皮層的學(xué)習(xí)機(jī)理和深度學(xué)習(xí)網(wǎng)絡(luò)三個(gè)方面的融合來(lái)進(jìn)行探討分析。
終極算法的可能性?類腦學(xué)習(xí)的啟示
人腦由一千多億個(gè)神經(jīng)細(xì)胞(神經(jīng)元)交織在一起的網(wǎng)狀結(jié)構(gòu)組成,其中大腦皮層約140億個(gè)神經(jīng)元,小腦皮層約1000億個(gè)神經(jīng)元。神經(jīng)元約有1000種類型,每個(gè)神經(jīng)元大約與100個(gè)其他神經(jīng)元相連接,形成極為錯(cuò)綜復(fù)雜而又靈活多變的神經(jīng)網(wǎng)絡(luò)。人的智能行為就是由如此高度復(fù)雜的組織產(chǎn)生的。浩瀚的宇宙中,也許只有包含數(shù)千憶顆星球的銀河系的復(fù)雜性能夠與大腦相比。很多學(xué)科的研究人員試著從不同角度解碼人腦的智能,人工智能從一開始就試圖模擬、延伸和擴(kuò)展人類智能,但迄今為止大部分AI研究成果還僅僅只能從行為上模擬部分智能。如何從更深入的機(jī)制上探索智能的本質(zhì)及其計(jì)算實(shí)現(xiàn)的機(jī)理,是神經(jīng)計(jì)算與類腦學(xué)習(xí)面臨的主要挑戰(zhàn)。對(duì)未來(lái)終極算法的設(shè)計(jì)實(shí)現(xiàn),筆者認(rèn)為有三種重要的類腦學(xué)習(xí)方法,也許能給我們一些啟示。
(1)大腦新皮層
Jeff Hawkins在其2004年出版的著作《On Intelligence》中,提出了一種大腦皮層運(yùn)作的記憶-預(yù)測(cè)框架。闡述了大腦皮層框架運(yùn)作的核心原理,提出了一種新皮層的理論,用以建立一種基于空間-時(shí)間記憶流模式的智能預(yù)測(cè)架構(gòu),而且設(shè)計(jì)實(shí)現(xiàn)了分層皮質(zhì)學(xué)習(xí)算法(HTM)。Jeff Hawkins的大腦皮層理論框架與算法,目標(biāo)很宏大,直指人類學(xué)習(xí)的終極算法。其中有幾個(gè)主要理論值得與大家分享:
a.“大腦新皮層是一個(gè)分層的架構(gòu)。在分層中的每一層或者區(qū)域,又是由密集包裹著的細(xì)胞組成的多個(gè)層。當(dāng)感知信息到達(dá)大腦新皮層時(shí),它穿過(guò)了分層架構(gòu)中的各個(gè)層。在這些區(qū)域的細(xì)胞變得活躍,逐步對(duì)輸入進(jìn)行抽象,得到不變的特征。然而,在架構(gòu)的最底層的細(xì)胞對(duì)輸入的簡(jiǎn)單的特征做出了最優(yōu)的反應(yīng),離架構(gòu)頂層最近的細(xì)胞則對(duì)高層次的概念做出反映,比如對(duì)外表、語(yǔ)言、動(dòng)作等。”——這跟當(dāng)前深度網(wǎng)絡(luò)的逐層學(xué)習(xí)思想是一致的。
b.“令人吃驚的是,在大腦新皮層中的區(qū)域,無(wú)論它們駐扎在什么地方,無(wú)論它們處理什么類型的感知信息,它們幾乎都相同的結(jié)構(gòu)。視覺區(qū)域類似于聽覺區(qū)域,也類似于語(yǔ)言區(qū)域。大腦新皮層完全使用了通用的機(jī)制。通過(guò)了解這些機(jī)制,我們能夠模擬它們,并將它們應(yīng)用運(yùn)用到學(xué)習(xí)、推理、預(yù)測(cè)等多種問(wèn)題中。盡管基于HTM理論還無(wú)法捕捉到大腦新皮層完整的復(fù)雜結(jié)構(gòu)及學(xué)習(xí)機(jī)制,但是它已經(jīng)足夠強(qiáng)大到來(lái)解決一些困難且有商業(yè)價(jià)值的問(wèn)題了。”——這點(diǎn)也許能解釋為什么深度學(xué)習(xí)能如此有效?
c.“HTM是一個(gè)記憶系統(tǒng),隨著時(shí)間變化,它通過(guò)給它的感知數(shù)據(jù)來(lái)學(xué)習(xí)它的世界,并從數(shù)據(jù)中抽象出高層的概念。抽象允許HTM網(wǎng)絡(luò)來(lái)進(jìn)行一般化(generalize),并對(duì)于傳統(tǒng)計(jì)算機(jī)編程處理的嚴(yán)格規(guī)則提供靈活性和效率。例如,在不完整或是模糊不清的數(shù)據(jù)呈現(xiàn)中,模式能夠被學(xué)習(xí)并識(shí)別出來(lái)。通過(guò)組合模式學(xué)列的記憶與當(dāng)前的輸入,HTM網(wǎng)絡(luò)能夠預(yù)測(cè)下一步可能發(fā)生什么。反過(guò)來(lái),這種預(yù)測(cè)能夠使用在從猜測(cè)可能的結(jié)果到檢測(cè)欺詐等一系列的認(rèn)知活動(dòng)中。”——這點(diǎn)出了深度學(xué)習(xí)未來(lái)的潛力,特別是跟記憶的融合。
可以看出Jeff Hawkins在13年前就提出的大腦新皮層理論框架,與當(dāng)今大火的深度學(xué)習(xí)有著異曲同工之妙。不過(guò)在具體算法實(shí)現(xiàn)上與深度網(wǎng)絡(luò)有較大差異,不過(guò)整套理論的核心思想就是要實(shí)現(xiàn)解碼智能的終極算法,潛力如何還有待觀察。
(2)深度學(xué)習(xí)與強(qiáng)化學(xué)習(xí)
深度學(xué)習(xí)專家們講得比較多,我就不贅述了。值得一提的是,深度學(xué)習(xí)的類腦模擬研究還很初級(jí),神經(jīng)計(jì)算和深度學(xué)習(xí)的交叉融合其實(shí)還遠(yuǎn)沒有開始。深度學(xué)習(xí)的加層機(jī)制來(lái)源于對(duì)人類大腦視覺分層處理的理解,而原人工神經(jīng)網(wǎng)絡(luò)也只是很初級(jí)的模擬了人腦神經(jīng)元的連接和激活。人腦實(shí)現(xiàn)學(xué)習(xí)、記憶、推理、情感等能力的生化神經(jīng)網(wǎng)絡(luò)運(yùn)行原理我們根本都還知之甚少,但是,深度學(xué)習(xí)加減層、加減神經(jīng)元、加減鏈接、跨層跨連接等這些簡(jiǎn)單的網(wǎng)絡(luò)構(gòu)建方法卻是跟人腦的運(yùn)行機(jī)制有類似的地方,幼兒到成人神經(jīng)元數(shù)量在增加、學(xué)習(xí)和記憶能力提升是神經(jīng)元之間鏈接的建立和加強(qiáng),而能力衰退也對(duì)應(yīng)于神經(jīng)元鏈接的斷裂等等…
可以說(shuō),深度學(xué)習(xí)在借鑒大腦神經(jīng)網(wǎng)絡(luò)原理和人類認(rèn)知過(guò)程方面,也許還沒入門,還有很多問(wèn)題需要深入挖掘和拓展。比如讓Deepmind情有獨(dú)鐘的強(qiáng)化學(xué)習(xí),與深度學(xué)習(xí)強(qiáng)強(qiáng)聯(lián)合之后,在很多智能研究中大放異彩。強(qiáng)化學(xué)習(xí)的主要目的是幫助模型形成從環(huán)境到行為映射的學(xué)習(xí),這種學(xué)習(xí)方法不是告訴系統(tǒng)如何產(chǎn)生正確的動(dòng)作,而是通過(guò)評(píng)價(jià)產(chǎn)生動(dòng)作的好壞來(lái)不斷迭代改進(jìn)學(xué)習(xí)能力,從而找到問(wèn)題的最優(yōu)解。而且強(qiáng)化學(xué)習(xí)在一定程度上能解決深度學(xué)習(xí)嚴(yán)重依賴大數(shù)據(jù)的問(wèn)題。
總之,未來(lái)終極算法的誕生,可能是多種學(xué)習(xí)方式的深度交叉融合,機(jī)器的情感、記憶推理等高級(jí)智能,將會(huì)由基于深度特征學(xué)習(xí)和加裝存儲(chǔ)記憶、推理模塊的遷移學(xué)習(xí)、強(qiáng)化學(xué)習(xí)、對(duì)抗學(xué)習(xí)等各種學(xué)習(xí)方式的交叉融合而實(shí)現(xiàn),未來(lái)的機(jī)器學(xué)習(xí)方式可能遠(yuǎn)不只這幾種,其本質(zhì)都是在模仿人類的學(xué)習(xí)方式。遷移學(xué)習(xí)代表了我們的進(jìn)化過(guò)程,學(xué)習(xí)的舉一反三、觸類旁通,強(qiáng)化學(xué)習(xí)、對(duì)抗學(xué)習(xí)類似周伯通左右互搏、無(wú)師自通等,以深度學(xué)習(xí)思想為主線的算法和框架技術(shù)棧將極大地拓展五大機(jī)器學(xué)習(xí)門派的功力。
展望
嚴(yán)格來(lái)講,傳統(tǒng)規(guī)則式AI系統(tǒng)還稱不上智能,而現(xiàn)在的深度學(xué)習(xí)也只是大數(shù)據(jù)驅(qū)動(dòng)的初級(jí)智能。以前我提過(guò)一個(gè)問(wèn)題,未來(lái)有沒有非數(shù)據(jù)驅(qū)動(dòng)的終極智能?換句話說(shuō),如果沒有大數(shù)據(jù),除了專家系統(tǒng)和規(guī)則式AI,人工智能要通用化,要達(dá)到SuperAI的水平,能否有所突破?這取決于終極算法的能力。規(guī)則式AI更多靠人工內(nèi)置的經(jīng)驗(yàn)和知識(shí)驅(qū)動(dòng),它最大的問(wèn)題也是要人工介入,而且很難具有學(xué)習(xí)能力,靠的知識(shí)、記憶和經(jīng)驗(yàn)建立的規(guī)則體系,這種不能自學(xué)習(xí)的符號(hào)AI系統(tǒng)隨著明斯基的去世,在逐步退出歷史舞臺(tái)。而強(qiáng)AI的目標(biāo)是機(jī)器智能化、擬人化,機(jī)器要具有和人一樣的能力,那就離不開記憶和經(jīng)驗(yàn),也離不開通過(guò)知識(shí)、經(jīng)驗(yàn)和記憶建立起來(lái)的認(rèn)知體系(經(jīng)驗(yàn)規(guī)則、知識(shí)本體)。從這個(gè)角度講,強(qiáng)AI要實(shí)現(xiàn)只靠深度學(xué)習(xí)、強(qiáng)化學(xué)習(xí)還不夠,通過(guò)深度學(xué)習(xí)、強(qiáng)化學(xué)習(xí)進(jìn)行環(huán)境基礎(chǔ)知識(shí)的初步監(jiān)督式指導(dǎo)學(xué)習(xí)或非監(jiān)督自我體驗(yàn)學(xué)習(xí),學(xué)習(xí)掌握的知識(shí)、經(jīng)驗(yàn)必須要能存儲(chǔ)和記憶,再結(jié)合大腦新皮層理論的時(shí)間-記憶流預(yù)測(cè)框架,在遇到新的問(wèn)題之后,就能像人一樣快速智能響應(yīng)。這也許就是未來(lái)終極算法的融合誕生之路吧?
總結(jié)
以上是生活随笔為你收集整理的从阿尔法元的诞生看终极算法的可能性的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: HALCON 1D Measure 算子
- 下一篇: 从底层重学 Java 之 Charact