android德州扑克计算器,学界 | 一台笔记本打败超算:CMU冷扑大师团队提出全新德扑AI Modicum...
原標(biāo)題:學(xué)界 | 一臺筆記本打敗超算:CMU冷撲大師團隊提出全新德?lián)銩I Modicum
選自arXiv
參與:路、曉坤
CMU 冷撲大師團隊在讀博士 Noam Brown、Tuomas Sandholm 教授和研究助理 Brandon Amos 近日提交了一個新研究:德州撲克人工智能 Modicum,它僅用一臺筆記本電腦的算力就打敗了業(yè)內(nèi)頂尖的 Baby Tartanian8(2016 計算機撲克冠軍)和 Slumbot(2018 年計算機撲克冠軍)。此前,冷撲大師的論文《Safe and Nested Subgame Solving for Imperfect-Information Games》是 NIPS 2017 的最佳論文。
1 引言
不完美信息博弈對智能體和隱藏信息之間的戰(zhàn)略互動進(jìn)行建模。此類博弈的主要基準(zhǔn)是撲克,尤其是一對一無限注德州撲克(HUNL),2017 年人工智能 Libratus 打敗德州撲克人類頂級玩家 [6]。帶來這一超人性能的關(guān)鍵突破在于嵌套求解(nested solving),隨著在博弈樹的位置不斷下移,智能體實時重復(fù)計算更加精細(xì)調(diào)整的策略(只屬于完整博弈的一部分)。
但是,實時子博弈求解在前半場對于 Libratus 來說成本太高,因為 Libratus 實時求解的這部分博弈樹(即子博弈)通常延伸到游戲結(jié)束。因此,前半場 Libratus 預(yù)先計算出一個精密策略用作查找表。如果該策略成功,則它需要可用于計算的數(shù)百萬核心時間和數(shù) TB 內(nèi)存。此外,在更深的序貫博弈中,該方法的計算開銷更加昂貴,因為需要求解更長的子博弈和更大型的預(yù)計算策略。一個更通用的方法是在博弈的早期階段就對深度有限(depth-limited)的子博弈進(jìn)行求解。
撲克 AI DeepStack 使用與嵌套求解類似的一項技術(shù)實現(xiàn)了這種操作 [26]。但是,盡管 DeepStack 戰(zhàn)勝了一組 HUNL 非頂尖人類專業(yè)選手,但它沒有打敗之前頂尖的 AI,盡管它使用超過一百萬核心時間來訓(xùn)練智能體,這表明它使用的方法可能在撲克等領(lǐng)域不夠?qū)嶋H或有效。本論文在第 7 部分詳細(xì)討論了該問題。本論文介紹了一種不同的深度有限求解方法,該方法戰(zhàn)勝了之前頂尖的 AI,且計算開銷實現(xiàn)數(shù)量級的下降。
在完美信息博弈中,深度有限子博弈的葉節(jié)點處的值被替換為所有選手在均衡狀態(tài)時的狀態(tài)估計值 [34, 32]。例如,該方法在 backgammon [38]、國際象棋 [9] 和圍棋 [35, 36] 上達(dá)到了超越人類的水平。同樣的方法還廣泛應(yīng)用于單智能體設(shè)置中,如啟發(fā)式搜索 [29, 24, 30, 15]。的確,在單智能體和完美信息多智能體設(shè)置中,了解所有選手均衡狀態(tài)時的狀態(tài)值足以重建均衡。但是,該方法在不完美信息博弈中沒有效果。
2 深度有限求解在不完美信息博弈中遇到的挑戰(zhàn)
在不完美信息博弈中(也叫作部分可觀測游戲),子博弈中的最優(yōu)策略無法通過了解所有選手均衡狀態(tài)時的狀態(tài)值(即博弈樹節(jié)點)來確定。圖 1a 是一個簡單圖示,展示了一種序貫博弈游戲「剪刀石頭布+」(Rock-Paper-Scissors+,RPS+)。RPS+ 和傳統(tǒng)的 RPS 相同,除了玩家出剪刀,贏者得 2 分而不是 1 分(輸者也輸 2 分)。圖 1a 以序貫博弈的形式展示 RPS+ 游戲,其中 P_1 首先動作,但是沒有向 P_2 泄露動作。該游戲中對于兩個玩家來說,最優(yōu)策略(Minmax 策略,即雙人零和博弈中的納什均衡)就是每一方以 40% 的概率選擇石頭或布,20% 的概率選擇剪刀。在該均衡中,P_1 選擇石頭的期望值為 0,選擇剪刀或布的值也為 0。也就是說,圖 1a 中所有的紅色狀態(tài)在該均衡中的值都為 0。現(xiàn)在,假設(shè) P_1 實施深度為 1 的深度有限搜索,深度極限處的均衡值被替代。該深度有限子博弈如圖 1b 所示。很明顯,在該子博弈中沒有足夠的信息達(dá)到 40% 石頭、40% 布、20% 剪刀的最優(yōu)策略。
在 RPS+ 例子中,核心問題在于我們不正確地假設(shè) P_2 將總是執(zhí)行固定的策略。如果實際上 P_2 出石頭、布和剪刀的概率是<0.4,0.4,0.2>,那么 P_1 將選擇任意的策略并且期望值為 0。然而,如果假設(shè) P_2 總是執(zhí)行固定的策略,P_1 可能無法找到對 P_2 變化具備魯棒性的策略。事實上,P_2 的最優(yōu)策略依賴于 P_1 選擇石頭、布和剪刀的概率。一般而言,在不完美信息博弈中,玩家在某個決策點的最優(yōu)策略依賴于玩家在狀態(tài)上的信度分布(belief distribution),以及其它智能體在該決策點上的策略。
在本文中,研究者引入了一種深度有限求解方法,確保玩家策略對于對手的變化具備魯棒性。研究者允許對手在深度有限(depth limit)處進(jìn)行最后一次動作選擇(其中每個動作對應(yīng)對手將在博弈余下部分執(zhí)行的策略),而不是在深度極限處簡單地替換單個狀態(tài)值。策略的選擇決定了狀態(tài)值。對手并沒有按特定于狀態(tài)的方式進(jìn)行選擇(即選擇最大狀態(tài)值)。相反,自然地,對手必須在所有狀態(tài)進(jìn)行相同的(對他而言)無法分辨的選擇。研究者證明了如果對手被給定了在深度有限處的足夠數(shù)量的策略,那么任何在深度有限處的子博弈求解都是完整博弈的納什均衡策略的一部分。他們還通過實驗展示了,當(dāng)僅提供了少量的策略時(為提高計算速度),該方法的性能達(dá)到極端的高度。
6 實驗
研究者在一對一無限注德州撲克(HUNL)和一對一無限注 flop 撲克(NLFH)上構(gòu)建了實驗。附錄 B 中有這些游戲的規(guī)則。HUNL 是不完美信息博弈 AI 的主要大規(guī)模基準(zhǔn)。NLFH 和 HUNL 相似,除了博弈會在第二個回合之后立刻結(jié)束,這使其規(guī)模足夠小,從而能精確地計算最佳反應(yīng)和納什均衡。性能根據(jù) mbb/g 測量,這是文獻(xiàn)中的標(biāo)準(zhǔn)勝率度量。mbb/g 即 milli-big blinds per game,代表玩家在每一手牌中平均能贏多少個大盲注(玩家在開始時必須承諾的賭注)的千分之一。
圖 2:回應(yīng)對手的 off-tree 動作的深度有限解決方案的利用度(exploitability),作為狀態(tài)值數(shù)量的函數(shù)。研究者對比了動作轉(zhuǎn)換和在動作提取中包含 off-tree 動作(在 CFR+的 1000 次迭代的達(dá)成利用度是下限值)的方法。
6.2 在一對一無限注德州撲克(HUNL)上對抗頂尖 AI 的實驗
我們主要的實驗使用了深度有限求解的方法,并僅使用普通筆記本電腦上的計算資源生成大師級的 HUNL 撲克 AI:Modicum。我們測試了 Modicum 與 Baby Tartanian8 [4] 和 Slumbot [18],其中 Baby Tartanian8 是 2016 年度計算機撲克競賽的獲勝者,Slumbot 是 2018 年度計算機撲克競賽的獲勝者。Baby Tartanian8 和 Slumbot 都不使用實時計算,它們的策略都是在預(yù)計算的查找表中搜索得到的。Baby Tartanian8 使用了約為 250000 個核心計算小時和 2TB RAM 來計算策略。相反,Modicum 只使用 700 個核心計算小時和 16GB 的 RAM 計算策略,它在使用 4 核 CPU 的情況下還能以人類專家的速度實時進(jìn)行博弈(平均一手撲克需要 20 秒)。
7 對比先前研究工作
通過為狀態(tài)分配多個值,本論文介紹了一種克服這一挑戰(zhàn)的方法。一種不同的方法是將「狀態(tài)」的定義修改為所有博弈者對狀態(tài)的的信念概率分布(belief probability distribution),我們稱之為聯(lián)合信念狀態(tài),這種技術(shù)以前也用來開發(fā)撲克 AI DeepStack [26]。實驗表明,在我們測試的領(lǐng)域中,使用多值狀態(tài)(multi-valued states)能產(chǎn)生更好的性能。例如我們的方法在少于 1000 個核心計算小時的條件下能擊敗兩種以前頂級的德州撲克 AI。相比之下,雖然 DeepStack 擊敗了在 HUNL 中不是那么專業(yè)的人類專家,但它即使使用了 1000000 個核心計算小時,也不能擊敗以前頂尖的 AI。但是,這兩種方法都各自有優(yōu)缺點,我們需要根據(jù)領(lǐng)域正確地選擇,未來的研究也許會改進(jìn)它們的性能與優(yōu)勢。
論文:Depth-Limited Solving for Imperfect-Information Games
論文地址:https://arxiv.org/abs/1805.08195
在不完美信息博弈中,一個基本的挑戰(zhàn)即狀態(tài)沒有良好定義的值。因此在單智能體和完美信息博弈中常用的深度有限(depth-limited)搜索算法并不合適。本文介紹了一種在不完美信息博弈中進(jìn)行深度優(yōu)先求解的原則性方法,它允許對手在深度有限下為其余部分選擇多種策略。且每一種策略都會為葉節(jié)點生成一組不同值,這使得智能體針對對手可能采取的策略產(chǎn)生魯棒性。我們通過構(gòu)建大師級的一對一無限注德州撲克 AI 而證明這種方法的高效性,它僅使用一塊 4 核的 CPU 和 16GB 的內(nèi)存就能擊敗兩個以前頂級的智能體。以前,開發(fā)這樣一個強大的智能體需要一臺超級計算機。
本文為機器之心編譯,轉(zhuǎn)載請聯(lián)系本公眾號獲得授權(quán)。返回搜狐,查看更多
責(zé)任編輯:
總結(jié)
以上是生活随笔為你收集整理的android德州扑克计算器,学界 | 一台笔记本打败超算:CMU冷扑大师团队提出全新德扑AI Modicum...的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Tomcat学习笔记(一)
- 下一篇: AI 趋势