微软麻将AI超越人类后 研究团队要出教材提升人类牌技
澎湃新聞記者 王心馨
人類以后想提升自己的麻將技能,可能要拜人工智能為師了。
微軟亞洲研究院研發(fā)的麻將AI系統(tǒng)Suphx在國際知名專業(yè)麻將平臺“天鳳”上榮升十段,且超越99.99%的人類后,研究團隊在接受澎湃新聞(www.thepaper.cn)采訪時稱,有日本出版社有意聯(lián)系,準備把Suphx打的牌譜出一本書,如果對麻將感興趣的,大家可以通過這本書來學怎么打麻將。
4月9日,微軟亞洲研究院Suphx研發(fā)團隊通過線上直播,詳細介紹了Suphx的技術(shù)細節(jié),其論文近日在arXiv平臺上發(fā)布。直播結(jié)束后,微軟亞洲研究首席研究員秦濤、微軟亞洲研究院高級研究工程師李俊杰在接受澎湃新聞采訪時表示,團隊目前正在和天鳳平臺協(xié)商,看是否考慮推出類似提升人類牌技的服務(wù)。例如,通過輸入一個人當前的牌面,Suphx會告訴這人該打哪張牌,以及它為什么打那張牌。
有意思的是,據(jù)兩位研究員透露,有日本出版社在聯(lián)系,希望Suphx打的牌譜出一本書。“因為有麻將愛好者將 Suphx 稱作麻將教科書、Suphx老師,如果對麻將感興趣同學們,他們可以通過這個書來學怎么打牌。 ”
Suphx如何提升牌技
去年8月,微軟亞洲研究院在世界人工智能大會上正式宣布由其研發(fā)的麻將AI系統(tǒng)Suphx成為首個在國際知名專業(yè)麻將平臺“天鳳”上榮升十段的AI系統(tǒng)。
在過去半年多的時間里,研究團隊對Suphx又進行了調(diào)整。具體來說,一是把整個系統(tǒng)架構(gòu)進行了重新的優(yōu)化,使它更快、更好。另一個是,在算法上也做了改進,比如“先知教練”。從博弈論的角度來看,麻將是多人非完美信息博弈。麻將一共有136張牌,每一位玩家只能看到很少的牌,包括自己的13張手牌和所有人打出來的牌,更多的牌是看不到,包括另外三位玩家的手牌以及墻牌。面對如此多的隱藏未知信息,麻將玩家很難僅根據(jù)自己的手牌做出一個很好的決策。
但通過先知教練,Suphx可以可以看到所有的信息,包括(1)玩家自己的私有手牌,(2)所有玩家的公開牌,(3)其他公共信息, (4)其他三個玩家的私有手牌,(5)墻牌。只有(1)(2)和(3)是正常的玩家可以獲得的,而(4)和(5)是只有“先知”才能獲得的額外的 "完美 "信息。
在Suphx中,Suphx研發(fā)團隊首先使用包括完美信息在內(nèi)的所有特征來對“先知”進行強化學習訓練,在這一步中控制“先知”的學習進度,不能讓其過于強大。然后,通過對完美特征增加mask逐漸使“先知”最終過渡到正常AI。接著,繼續(xù)訓練正常AI并進行一定數(shù)量的迭代,采用衰減學習率和拒絕采樣的技巧來調(diào)整訓練過程,讓AI的技術(shù)不斷精進。
正如AlphaGO一開始以人為師,升級后,開始自己“左右互博”,不斷提升。秦濤在采訪中表示,Suphx也嘗試過完全不用人的數(shù)據(jù)做訓練,直接用self-play,是可以做好的,只不過是訓練速度會慢一些,這也涉及到背后算法要做一些新的改動,讓計算機學得更快。
未來可用在股票操盤上
Suphx會打麻將只是第一步。兩位研究員稱,團隊正在金融行業(yè)和物流行業(yè)做一些嘗試,讓Suphx技術(shù)落地實際應(yīng)用場景。
在金融領(lǐng)域里,如果我們能提前知道明天股票行情是,那么今天的投資肯定會做得很好,這在某種程度上就是完美信息。例如,今天A股已經(jīng)閉盤了,那么我們就知道了今天所有的股票信息,當我們再回頭看昨天,假設(shè)昨天做決策的時候就知道了今天股票的信息,那對股票操作來說就是完美信息。研究員認為,在這種情況下可以利用完美信息,幫助我們把模型訓練得更好。實際應(yīng)用的時候就像麻將里面一樣,通過完美信息,我們可以得到一個非常強大的老師——Teacher model,這樣學生模型student model也會學的很好。
在機器翻譯領(lǐng)域中,完美信息也很有幫助。比如在機器翻譯中,如果知道一句話的上下文,可能它翻譯得更好,即完美信息。但實際中不一定每句話我們都知道它的上下文,但是訓練中我們可以拿到完美信息,就可以幫助我們將翻譯做得更好。
還有哪些不足
從此次發(fā)表的論文看,Suphx的技術(shù)表現(xiàn)堪稱完美。但在兩位研究員看來,未來Suphx還有進步的空間。
“比如我們現(xiàn)在很多時候還是用了高手的數(shù)據(jù)訓練一個模型,然后再到強化學習,但是我們有不同的麻將平臺及規(guī)則,不一定所有的平臺都能拿到人類的數(shù)據(jù),在這種情況下怎么能不用人的數(shù)據(jù)直接從0開始,這是我們在做的一件事情。”秦濤說。
相比圍棋、象棋以及DOTA游戲,麻將的隨機因素很多,這對模型的訓練和測試都會帶來很大的影響。據(jù)研究團隊透露,他們的模型在測試的時候基本上會跑100萬場游戲,才能明確地知道誰更厲害,這就跟圍棋很不一樣,圍棋五局三勝,麻將不同。這種情況下如何更快地完成對弈,得出可信賴的結(jié)果,也是團隊在研究的一個問題。
最后,團隊還在考慮,Suphx能針對性地,面對不同的對手采取一些自適應(yīng)策略。
總結(jié)
以上是生活随笔為你收集整理的微软麻将AI超越人类后 研究团队要出教材提升人类牌技的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 爱立信:自动化运维成就更好的5G网络
- 下一篇: 新加坡推迟数字银行牌照发放:新电信小米皆