當前位置：首頁 > 编程资源 > 综合教程 >内容正文

综合教程

微软麻将AI超越人类后研究团队要出教材提升人类牌技

發布時間：2023/11/22 综合教程 28 生活家

生活随笔收集整理的這篇文章主要介紹了微软麻将AI超越人类后研究团队要出教材提升人类牌技小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

澎湃新聞記者王心馨

人類以后想提升自己的麻將技能，可能要拜人工智能為師了。

微軟亞洲研究院研發的麻將AI系統Suphx在國際知名專業麻將平臺“天鳳”上榮升十段，且超越99.99%的人類后，研究團隊在接受澎湃新聞（www.thepaper.cn）采訪時稱，有日本出版社有意聯系，準備把Suphx打的牌譜出一本書，如果對麻將感興趣的，大家可以通過這本書來學怎么打麻將。

4月9日，微軟亞洲研究院Suphx研發團隊通過線上直播，詳細介紹了Suphx的技術細節，其論文近日在arXiv平臺上發布。直播結束后，微軟亞洲研究首席研究員秦濤、微軟亞洲研究院高級研究工程師李俊杰在接受澎湃新聞采訪時表示，團隊目前正在和天鳳平臺協商，看是否考慮推出類似提升人類牌技的服務。例如，通過輸入一個人當前的牌面，Suphx會告訴這人該打哪張牌，以及它為什么打那張牌。

有意思的是，據兩位研究員透露，有日本出版社在聯系，希望Suphx打的牌譜出一本書。“因為有麻將愛好者將 Suphx 稱作麻將教科書、Suphx老師，如果對麻將感興趣同學們，他們可以通過這個書來學怎么打牌。 ”

Suphx如何提升牌技

去年8月，微軟亞洲研究院在世界人工智能大會上正式宣布由其研發的麻將AI系統Suphx成為首個在國際知名專業麻將平臺“天鳳”上榮升十段的AI系統。

在過去半年多的時間里，研究團隊對Suphx又進行了調整。具體來說，一是把整個系統架構進行了重新的優化，使它更快、更好。另一個是，在算法上也做了改進，比如“先知教練”。從博弈論的角度來看，麻將是多人非完美信息博弈。麻將一共有136張牌，每一位玩家只能看到很少的牌，包括自己的13張手牌和所有人打出來的牌，更多的牌是看不到，包括另外三位玩家的手牌以及墻牌。面對如此多的隱藏未知信息，麻將玩家很難僅根據自己的手牌做出一個很好的決策。

但通過先知教練，Suphx可以可以看到所有的信息，包括(1)玩家自己的私有手牌，(2)所有玩家的公開牌，(3)其他公共信息， (4)其他三個玩家的私有手牌，(5)墻牌。只有(1)(2)和(3)是正常的玩家可以獲得的，而(4)和(5)是只有“先知”才能獲得的額外的 "完美 "信息。

在Suphx中，Suphx研發團隊首先使用包括完美信息在內的所有特征來對“先知”進行強化學習訓練，在這一步中控制“先知”的學習進度，不能讓其過于強大。然后，通過對完美特征增加mask逐漸使“先知”最終過渡到正常AI。接著，繼續訓練正常AI并進行一定數量的迭代，采用衰減學習率和拒絕采樣的技巧來調整訓練過程，讓AI的技術不斷精進。

正如AlphaGO一開始以人為師，升級后，開始自己“左右互博”，不斷提升。秦濤在采訪中表示，Suphx也嘗試過完全不用人的數據做訓練，直接用self-play，是可以做好的，只不過是訓練速度會慢一些，這也涉及到背后算法要做一些新的改動，讓計算機學得更快。

未來可用在股票操盤上

Suphx會打麻將只是第一步。兩位研究員稱，團隊正在金融行業和物流行業做一些嘗試，讓Suphx技術落地實際應用場景。

在金融領域里，如果我們能提前知道明天股票行情是，那么今天的投資肯定會做得很好，這在某種程度上就是完美信息。例如，今天A股已經閉盤了，那么我們就知道了今天所有的股票信息，當我們再回頭看昨天，假設昨天做決策的時候就知道了今天股票的信息，那對股票操作來說就是完美信息。研究員認為，在這種情況下可以利用完美信息，幫助我們把模型訓練得更好。實際應用的時候就像麻將里面一樣，通過完美信息，我們可以得到一個非常強大的老師——Teacher model，這樣學生模型student model也會學的很好。

在機器翻譯領域中，完美信息也很有幫助。比如在機器翻譯中，如果知道一句話的上下文，可能它翻譯得更好，即完美信息。但實際中不一定每句話我們都知道它的上下文，但是訓練中我們可以拿到完美信息，就可以幫助我們將翻譯做得更好。

還有哪些不足

從此次發表的論文看，Suphx的技術表現堪稱完美。但在兩位研究員看來，未來Suphx還有進步的空間。

“比如我們現在很多時候還是用了高手的數據訓練一個模型，然后再到強化學習，但是我們有不同的麻將平臺及規則，不一定所有的平臺都能拿到人類的數據，在這種情況下怎么能不用人的數據直接從0開始，這是我們在做的一件事情。”秦濤說。

相比圍棋、象棋以及DOTA游戲，麻將的隨機因素很多，這對模型的訓練和測試都會帶來很大的影響。據研究團隊透露，他們的模型在測試的時候基本上會跑100萬場游戲，才能明確地知道誰更厲害，這就跟圍棋很不一樣，圍棋五局三勝，麻將不同。這種情況下如何更快地完成對弈，得出可信賴的結果，也是團隊在研究的一個問題。

最后，團隊還在考慮，Suphx能針對性地，面對不同的對手采取一些自適應策略。

總結

以上是生活随笔為你收集整理的微软麻将AI超越人类后研究团队要出教材提升人类牌技的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：爱立信：自动化运维成就更好的5G网络
下一篇：新加坡推迟数字银行牌照发放：新电信小米皆

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

综合教程

微软麻将AI超越人类后 研究团队要出教材提升人类牌技

總結

微软麻将AI超越人类后研究团队要出教材提升人类牌技