日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

AlphaZero进化论:从零开始,制霸所有棋类游戏

發(fā)布時間:2025/7/25 编程问答 20 豆豆
生活随笔 收集整理的這篇文章主要介紹了 AlphaZero进化论:从零开始,制霸所有棋类游戏 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

2017年末,DeepMind推出了AlphaZero——一套能夠從零開始自主學(xué)習(xí)國際象棋、將棋(類似于日本版的國際象棋)以及圍棋的技藝,從而全面超越各項目世界冠軍的系統(tǒng)。

對于這一系統(tǒng)帶來的初步成果,整個公司的研發(fā)人員都感到非常興奮,并很高興看到國際象棋界成員對此做出的熱烈回應(yīng)。他們在AlphaZero的棋藝當(dāng)中發(fā)現(xiàn)了一種突破性、高度動態(tài)且“不同于傳統(tǒng)”的對弈風(fēng)格,這也使其完全不同于以往存在過的任何棋類游戲引擎。

今天,AlphaZero登上了著名的《科學(xué)》雜志,并以封面論文的形式發(fā)表,它背后的公司DeepMind也在官方博客上撰文,為這一系統(tǒng)取得的最新成就進(jìn)行了詳細(xì)解析,InfoQ將全文翻譯整理如下:

今天,我們很高興地發(fā)布AlphaZero的完整評估報告,這篇論文已經(jīng)公開發(fā)表在《科學(xué)》雜志上:

http://science.sciencemag.org/content/362/6419/1140

評審編輯已經(jīng)確認(rèn)并更新了這些初步結(jié)果。論文描述了AlphaZero如何快速學(xué)習(xí)每一種棋類,包括在僅獲得游戲基本規(guī)則、但完全不存在內(nèi)置指導(dǎo)的前提下從隨機游戲開始,一步步成長為有史以來最強大的棋手。

這種從零開始學(xué)習(xí)每種棋類的能力由于不受人類固有思維的約束,因此產(chǎn)生出一種獨特、有悖于傳統(tǒng),但卻極具創(chuàng)造性與動態(tài)思考的對弈風(fēng)格。國際象棋大量馬修·薩德勒(Matthew Sadler)與女子國際象棋大師娜塔莎·里根(Natasha Regan)在即將于明年1月出版的《游戲規(guī)則改變者(Game Changer)》一書中分析了AlphaZero進(jìn)行的數(shù)千盤國際象棋對弈,并發(fā)現(xiàn)其風(fēng)格不同于任何傳統(tǒng)的國際象棋引擎。馬修表示,“這就像是發(fā)現(xiàn)了古代棋藝大師的秘籍一樣。”

傳統(tǒng)的國際象棋引擎——包括世界計算機國際象棋冠軍Stockfish與IBM廣為人知的“深藍(lán)”——依賴于數(shù)千條由頂尖人類棋手提供的規(guī)則與啟發(fā)式方法。這些信息嘗試解釋游戲中的每一種可能性。將棋同樣遵循此理,其程序僅適用于將棋本身,但采用與國際象棋程序類似的搜索引擎與算法。

AlphaZero采取的方法則完全不同,其利用一套深層神經(jīng)網(wǎng)絡(luò)與大量通用型算法取代了那些手工制作的規(guī)則,而且這些算法除了棋類的基本規(guī)則之外一無所知。

在國際象棋當(dāng)中,AlphaZero僅用了4個小時便成功擊敗Stockfish; 在將棋方面,其擊敗Elmo則僅用掉2個小時; 至于圍棋,AlphaZero在30個小時即擊敗曾于2016年壓倒世界冠軍李世石的AlphaGo版本。注意:每個訓(xùn)練步驟代表4096個盤面位置。

為了學(xué)習(xí)每種棋類,這套未經(jīng)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)會通過一種被稱為強化學(xué)習(xí)的實驗與試錯過程完成數(shù)百萬盤自我對弈。起初,其完全是在隨機亂下; 但隨著時間的推移,系統(tǒng)會從勝利、失敗以及平局當(dāng)中學(xué)習(xí)經(jīng)驗,從而調(diào)整神經(jīng)網(wǎng)絡(luò)參數(shù),使其更有可能在未來的選擇中做出有利判斷。網(wǎng)絡(luò)所需要的訓(xùn)練量取決于游戲的風(fēng)格與復(fù)雜程度——國際象棋大約需要9個小時,將其大約需要12個小時,而圍棋則需要13天。

這套經(jīng)過訓(xùn)練的網(wǎng)絡(luò)被用于指導(dǎo)一種搜索算法——被稱為蒙特卡洛樹搜索(簡稱MCTS)——坐而選擇當(dāng)前盤面下最為有利的棋步。對于每一步棋,AlphaZero所需要的位置搜索量只相當(dāng)于傳統(tǒng)國際象棋引擎的一小部分。例如在國際象棋當(dāng)中,AlphaZero每秒只需要搜索6萬個位置; 相比之下,Stockfish則需要搜索大約6000萬個位置。

經(jīng)過全面訓(xùn)練之后,這套系統(tǒng)被用于對抗最強大的傳統(tǒng)國際象棋(Stockfish)與將棋(Elmo)引擎,甚至還包括AlphaZero“一奶同胞”的大哥AlphaGo——全球最強圍棋棋手。

  • 每款程序都運行在專門設(shè)計的硬件之上。Stockfish與Elmo采用44個CPU核心(與TCEC世界錦標(biāo)賽時的情況保持一致),而AlphaZero與AlphaGo Zero則使用一臺配備有4個第一代TPU與44個CPU核心的機器。第一代TPU的推理速度與英偉達(dá)Titan V GPU等商用硬件大體相似——當(dāng)然,二者的架構(gòu)差別巨大,不具備直接可比性。

  • 所有比賽均采用單場3小時制,每步棋額外增加15秒。
    在所有對抗當(dāng)中,AlphaZero都以毫無爭議的方式擊敗了對手:

  • 在國際象棋方面,AlphaZero擊敗了2016年TCEC(第9季)世界錦標(biāo)賽冠軍Stockfish——其中AlphaZero獲得155場勝利,且敗率僅為千分之六。為了驗證AlphaZero的穩(wěn)健性,我們還刻意為雙方準(zhǔn)備了由人類常規(guī)開盤形成的殘局。無論是哪種殘局,AlphaZero仍能順利擊敗Stockfish。此外,我們亦參加了2016年TCEC世界錦標(biāo)賽,并在比賽中對陣近期剛剛進(jìn)行升級的Stockfish版本——其中一種Stockfish變體采用了非常強大的開局走法組合,但AlphaZero仍無一例外全部取勝。

  • 在將棋方面,AlphaZero擊敗了在2017年CSA世界錦標(biāo)賽上勝出的Elmo版本,勝率為91.2%。

  • 在圍棋方面,AlphaZero戰(zhàn)勝了AlphaGo Zero,勝率為61%。

然而,更令人著迷的是AlphaZero在對弈過程中展現(xiàn)出的行棋風(fēng)格。例如,在國際象棋當(dāng)中,AlphaZero在自我學(xué)習(xí)與訓(xùn)練當(dāng)中獨立發(fā)現(xiàn)并使用了常見的人類行棋模式,例如開口、保王以及兵陣等等。然而,由于自學(xué)成才且完全不受傳統(tǒng)觀念的影響,AlphaZero也發(fā)展出了自己的直覺與策略。其提出的一系列令人興奮的新穎想法,大大拓展了幾個世紀(jì)以來人類對于國際象棋戰(zhàn)略的理解。

棋手們首先注意到的,一定是AlphaZero的行棋風(fēng)格。馬修·薩德勒表示,“它的走法充滿了目的性與攻擊性,始終圍繞著對方的王進(jìn)行謀劃。”以此為基礎(chǔ),AlphaZero還擁有著高度動態(tài)化的對弈能力,這最大限度提高了其棋路的靈活性與移動性,同時最大限制著對方棋子的靈活性與移動性。與直覺相反,AlphaZero似乎對于“棋子角色”的重視程度較低。現(xiàn)代競技項目的一大基礎(chǔ)特性,所有參與方都具有價值。如果某一選手在棋盤上的棋子價值高于對方,則表示前者在棋子角色方面具有優(yōu)勢。但不同于此,AlphaZero更傾向于在開局之初就犧牲這些棋子角色,從而獲得更為長遠(yuǎn)的形勢性收益。

馬修指出,“令人印象深刻的是,它在各種角色與位點上都表現(xiàn)出這種強烈的行棋風(fēng)格。”他同時觀察到,AlphaZero在起步階段會非常刻意地以“與人類非常相似的意圖”設(shè)計開局。

馬修解釋稱,“傳統(tǒng)引擎非常穩(wěn)定,幾乎不會出現(xiàn)明顯的錯誤。但在面對沒有具體且可參考解決方案的位置時,則顯得束手無策。相比之下,AlphaZero則能夠在這樣的位置上表現(xiàn)出「感覺」、「洞察」或者「直覺」。”

這種獨特的能力是其它傳統(tǒng)國際象棋引擎所不具備的,而且也在最近的世界國際象棋錦標(biāo)賽當(dāng)中為國際象棋愛好者們帶來了新的思路與啟發(fā)。馬格努斯·卡爾森(Magnus Carlsen)與法比亞諾·卡魯安納(Fabiano Caruana)之間的比賽就有所體現(xiàn),《游戲規(guī)則改變者》一書就對此做出了進(jìn)一步探討。娜塔莎·里根表示,“對AlphaZero以及頂級國際象棋引擎乃至頂級大師的行棋方式進(jìn)行分析,著實令人著迷。”

AlphaZero帶來的經(jīng)驗,也與2016年AlphaGo與傳奇圍棋大師李世石間的對弈有所呼應(yīng)。在此次比賽當(dāng)中,AlphaGo走出了許多極具創(chuàng)造性的取勝手法,包括在第二場比賽中只用37步即告勝出——這徹底推翻了數(shù)百年來人類對于圍棋運動的理解。這些棋步已經(jīng)被包括李世石本人在內(nèi)的眾多棋手奉為經(jīng)典案例。在評論第37步時,李世石表示,“我一直認(rèn)為AlphaGo屬于那種基于概率的計算工具,畢竟它只是一臺機器。但在看到這一步時,我改變了看法。不可否認(rèn),AlphaGo擁有真正的創(chuàng)造力。”

與圍棋一樣,我們也對AlphaZero在國際象棋領(lǐng)域表現(xiàn)出的創(chuàng)造性感到興奮。自從計算機時代開始以來,國際象棋一直是人工智能技術(shù)面臨的主要挑戰(zhàn)——包括巴貝奇、圖靈、香農(nóng)以及馮·諾伊曼在內(nèi)的眾多早期開拓者都在努力設(shè)計能夠解決國際象棋問題的方案。但AlphaZero的適用于并不僅限于國際象棋、將棋或者圍棋。為了建立起能夠解決各類現(xiàn)實問題的智能系統(tǒng),我們要求其具備靈活性并能夠適應(yīng)各種新情況。雖然我們已經(jīng)在實現(xiàn)這一目標(biāo)方面取得了一定進(jìn)展,但其仍然是人工智能研究中的一大核心挑戰(zhàn)。目前的系統(tǒng)雖然能夠以極高的標(biāo)準(zhǔn)掌握特定技能,但卻往往無法解決甚至只經(jīng)過略微修改的任務(wù)。

AlphaZero這種掌握三種不同復(fù)雜棋類(甚至有可能涵蓋一切完美信息類項目)的能力代表著克服這一問題的重要一步。這證明單一算法完全有可能在不同的具體規(guī)則之下學(xué)習(xí)并發(fā)現(xiàn)新知識。另外,盡管尚處于早期發(fā)展階段,但AlphaZero的創(chuàng)造性見解加上我們在AlphaFold等其它項目中觀察到的振奮人心的結(jié)果,使我們對于創(chuàng)建通用學(xué)習(xí)系統(tǒng)這一目標(biāo)充滿信心。這意味著我們有望發(fā)現(xiàn)更多新的解決方案,從而攻克那些最重要也最復(fù)雜的科學(xué)問題。

下載論文:

https://deepmind.com/documents/260/alphazero_preprint.pdf

原文鏈接:

https://deepmind.com/blog/alphazero·shedding·new·light·grand·games·chess·shogi·and·go/

會議推薦:

12月20-21,AICon全球人工智能與機器學(xué)習(xí)技術(shù)大會將于北京盛大開幕,學(xué)習(xí)來自Google、微軟、BAT、360、京東、美團(tuán)等40+AI落地案例年終總結(jié),與國內(nèi)外一線技術(shù)大咖面對面交流,不見不散。

總結(jié)

以上是生活随笔為你收集整理的AlphaZero进化论:从零开始,制霸所有棋类游戏的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。