麻雀AI戰力超99%人類:專業十段級別 學習能力堪比AlphaGo
今次食唔到胡真係唔可以怪運氣啦……
從最早的AI(人工智能)在國際象棋中戰勝人類開始,中國象棋、德州撲克、圍棋等智力遊戲相繼淪陷,AI在DOTA、星際爭霸等電子遊戲中也表現亮眼,但是AI在中國傳統棋牌類遊戲「麻雀」領域卻似乎一直沒有突破,直到最近一個有關麻雀AI研究文章發表,人類在這個陣地堅守的防線也最終崩潰了。
近日,微軟發布了一份關於麻雀AI「Suphx(意為Super Phoenix,超級鳳凰)」的修訂版預印本文件,介紹說Suphx是一個專業十段水平的「選手」,超越了99%人類玩家,這是計算機程式首次超過麻雀中大多數頂級人類玩家。
據這份公開資料顯示,Suphx於2019年3月登陸日本專業的麻雀競技平台Tenhou(天鳳),在短短幾個月內,Suphx在該平台上與人類選手展開了5000多場四人麻雀對局,達到了十段,這是目前為止,世界上第一個也是唯一一個達到10段水平的人工智能。
天鳳是世界上最大的麻雀社區之一,擁有超過35萬活躍用戶,其中不乏大量的專業麻雀選手。天鳳平台自2006年推出以來,四人麻雀達到過十段的選手約有180位,而現役的十段人類選手也不過十幾位。
麻雀被稱為不完全信息博弈,每位玩家手中最多有13張別人不可見的牌。牌牆中的14張牌對所有玩家都不可見。此外,牌桌中央還有70張牌。只有被玩家打出時,這部分牌才可見。
雖然136張麻雀的排列組合結果和圍棋相比要小得多,但難點在於同一玩家兩次出牌之間,夾雜了其他3位玩家的出牌、自己的摸牌,而且還有「吃、碰、槓」都會讓牌局產生動態變化。
在這種規則下,玩家每做出一個選擇,接下來的牌局就可能出現10個以上的走向。
另外,麻雀游戲的「胡牌」方式非常多。因此,想要打造一個高手麻雀AI,只有強大的算力是不夠的,更需要讓AI具有直覺、預測、推理和模糊決策的能力,這也正是建立麻雀人工智能模型的難點所在。
開始階段研究員們利用天鳳平台的公開數據得到一個初始模型,並在模型基礎上用自我博弈的方式進行強化學習訓練。研究員開發了丟牌模型、立直模型、吃牌模型、碰牌模型以及槓牌模型等五大模型,專門訓練suphx的打牌策略。
這五大模型都基於深度殘差卷積神經網絡,並一一應對麻雀復雜的決策類型。甚至,Suphx還有一個基於規則的贏牌模型,決定在可以贏牌的時候要不要贏牌。
隨後,針對非完美信息博弈的挑戰,Suphx創新性地嘗試了先知教練技術來提升強化學習的效果。最後,再針對麻雀復雜的牌面表達和計分機制,研究團隊利用全盤預測技術搭建起每局比賽和8局終盤結果之間的橋樑。
這個預測器通過精巧的設計,可以理解每局比賽對終盤的不同貢獻,從而將終盤的獎勵信號合理地分配回每一局比賽中,以便對自我博弈的過程進行更加直接有效的指導,並使得Suphx可以學會一些具有大局觀的高級技巧。
從最早的AI在國際象棋中戰勝人類開始,AI先後攻克了中國象棋、德州撲克、圍棋、DOTA、星際爭霸等多種遊戲,為什麼AI研究者都喜歡挑戰遊戲領域呢?
在去年的世界人工智能大會上,時任微軟全球副總裁的沈向洋表示,遊戲一直是人工智能研究的最佳試驗田,訓練遊戲AI的過程可以不斷提升人工智能的算法和人工智能處理複雜問題的能力。
在現實世界中,金融市場預測、物流優化等很多問題與麻雀游戲有著相同的特點,包括複雜的操作、獎勵規則、信息的不完全性等。
浙江大學人工智能研究所所長吳飛也表示,很多AI的研發都是針對某個領域或某個具體任務進行的研究,這些AI誕生的目的當然不僅僅在某個遊戲勝過人類這麼簡單,都是為了應用到我們實際生活中去。
吳飛說:「微軟這款麻雀AI所採取的策略其實和圍棋當中的AlphaGo是類似的,框架還是基於強化學習、深度學習和蒙特卡羅樹搜索。只不過它是針對麻雀這個具體問題進行優化,如針對麻雀中不同出牌的策略專門進行學習。
吳飛認為,AI戰勝人類在大部分棋牌類游戲中都可以實現,但這不代表現在的AI就比人類厲害了,因為人類行為不是單一問題的集合,實際的應用場景比遊戲要復雜得多。
「比如現在大家關注度比較高的自動駕駛、城市大腦,這些場景更加複雜,沒有足夠多的數據,也沒有足夠準確的機器語言去描述,因此目前的人工智能在實際使用中還很局限。不過這類AI的出現對我們解決序貫決策問題還是很有幫助的,比如對經濟活動調整的預測和分析,來幫助經營者作出更好的決策;在交通、物流領域進行效率優化、降低成本提高收益等。」