日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 综合教程 >内容正文

综合教程

微软麻将AI超越人类后 研究团队要出教材提升人类牌技

發布時間:2023/11/22 综合教程 16 生活家
生活随笔 收集整理的這篇文章主要介紹了 微软麻将AI超越人类后 研究团队要出教材提升人类牌技 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

澎湃新聞記者 王心馨

人類以后想提升自己的麻將技能,可能要拜人工智能為師了。

微軟亞洲研究院研發的麻將AI系統Suphx在國際知名專業麻將平臺“天鳳”上榮升十段,且超越99.99%的人類后,研究團隊在接受澎湃新聞(www.thepaper.cn)采訪時稱,有日本出版社有意聯系,準備把Suphx打的牌譜出一本書,如果對麻將感興趣的,大家可以通過這本書來學怎么打麻將。

4月9日,微軟亞洲研究院Suphx研發團隊通過線上直播,詳細介紹了Suphx的技術細節,其論文近日在arXiv平臺上發布。直播結束后,微軟亞洲研究首席研究員秦濤、微軟亞洲研究院高級研究工程師李俊杰在接受澎湃新聞采訪時表示,團隊目前正在和天鳳平臺協商,看是否考慮推出類似提升人類牌技的服務。例如,通過輸入一個人當前的牌面,Suphx會告訴這人該打哪張牌,以及它為什么打那張牌。

有意思的是,據兩位研究員透露,有日本出版社在聯系,希望Suphx打的牌譜出一本書。“因為有麻將愛好者將 Suphx 稱作麻將教科書、Suphx老師,如果對麻將感興趣同學們,他們可以通過這個書來學怎么打牌。 ”

Suphx如何提升牌技

去年8月,微軟亞洲研究院在世界人工智能大會上正式宣布由其研發的麻將AI系統Suphx成為首個在國際知名專業麻將平臺“天鳳”上榮升十段的AI系統。

在過去半年多的時間里,研究團隊對Suphx又進行了調整。具體來說,一是把整個系統架構進行了重新的優化,使它更快、更好。另一個是,在算法上也做了改進,比如“先知教練”。從博弈論的角度來看,麻將是多人非完美信息博弈。麻將一共有136張牌,每一位玩家只能看到很少的牌,包括自己的13張手牌和所有人打出來的牌,更多的牌是看不到,包括另外三位玩家的手牌以及墻牌。面對如此多的隱藏未知信息,麻將玩家很難僅根據自己的手牌做出一個很好的決策。

但通過先知教練,Suphx可以可以看到所有的信息,包括(1)玩家自己的私有手牌,(2)所有玩家的公開牌,(3)其他公共信息, (4)其他三個玩家的私有手牌,(5)墻牌。只有(1)(2)和(3)是正常的玩家可以獲得的,而(4)和(5)是只有“先知”才能獲得的額外的 "完美 "信息。

在Suphx中,Suphx研發團隊首先使用包括完美信息在內的所有特征來對“先知”進行強化學習訓練,在這一步中控制“先知”的學習進度,不能讓其過于強大。然后,通過對完美特征增加mask逐漸使“先知”最終過渡到正常AI。接著,繼續訓練正常AI并進行一定數量的迭代,采用衰減學習率和拒絕采樣的技巧來調整訓練過程,讓AI的技術不斷精進。

正如AlphaGO一開始以人為師,升級后,開始自己“左右互博”,不斷提升。秦濤在采訪中表示,Suphx也嘗試過完全不用人的數據做訓練,直接用self-play,是可以做好的,只不過是訓練速度會慢一些,這也涉及到背后算法要做一些新的改動,讓計算機學得更快。

未來可用在股票操盤上

Suphx會打麻將只是第一步。兩位研究員稱,團隊正在金融行業和物流行業做一些嘗試,讓Suphx技術落地實際應用場景。

在金融領域里,如果我們能提前知道明天股票行情是,那么今天的投資肯定會做得很好,這在某種程度上就是完美信息。例如,今天A股已經閉盤了,那么我們就知道了今天所有的股票信息,當我們再回頭看昨天,假設昨天做決策的時候就知道了今天股票的信息,那對股票操作來說就是完美信息。研究員認為,在這種情況下可以利用完美信息,幫助我們把模型訓練得更好。實際應用的時候就像麻將里面一樣,通過完美信息,我們可以得到一個非常強大的老師——Teacher model,這樣學生模型student model也會學的很好。

在機器翻譯領域中,完美信息也很有幫助。比如在機器翻譯中,如果知道一句話的上下文,可能它翻譯得更好,即完美信息。但實際中不一定每句話我們都知道它的上下文,但是訓練中我們可以拿到完美信息,就可以幫助我們將翻譯做得更好。

還有哪些不足

從此次發表的論文看,Suphx的技術表現堪稱完美。但在兩位研究員看來,未來Suphx還有進步的空間。

“比如我們現在很多時候還是用了高手的數據訓練一個模型,然后再到強化學習,但是我們有不同的麻將平臺及規則,不一定所有的平臺都能拿到人類的數據,在這種情況下怎么能不用人的數據直接從0開始,這是我們在做的一件事情。”秦濤說。

相比圍棋、象棋以及DOTA游戲,麻將的隨機因素很多,這對模型的訓練和測試都會帶來很大的影響。據研究團隊透露,他們的模型在測試的時候基本上會跑100萬場游戲,才能明確地知道誰更厲害,這就跟圍棋很不一樣,圍棋五局三勝,麻將不同。這種情況下如何更快地完成對弈,得出可信賴的結果,也是團隊在研究的一個問題。

最后,團隊還在考慮,Suphx能針對性地,面對不同的對手采取一些自適應策略。

總結

以上是生活随笔為你收集整理的微软麻将AI超越人类后 研究团队要出教材提升人类牌技的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。