《Nature》雜誌發佈電競AI最新論文:AlphaStar玩轉《星海爭霸2》三大種族戰力超越99.8%玩家
弊啦弊啦,咁搞法遲早出事……
人工智能公司 DeepMind 有關 AlphaStar 的論文最近發表在最新一期的《Nature》雜誌上,這是人工智能演算法AlphaStar 的最新研究進展,展示了AI 在「沒有任何遊戲限制的情況下」已經達到《星海爭霸2》的人類頂級水準。AlphaStar在Battle.net戰網上的排名已超越99.8%的活躍玩家。
雖然依然打不過世界第一人類選手 Serral,但 AlphaStar 已經登上了《Nature》雜誌。在 DeepMind 的最新博客文章中,研究者們對於AlphaStar 演算法的學習能力進行了詳細介紹。
在遊戲測試中,Exploiter型AI創造了一種「Tower Rush」策略,成功擊敗同樣是AI的對手。繼續進行AI對戰訓練之後,新的AI已經學會操控農民礦工去對抗「Tower Rush」策略。新的AI更通過經濟優勢、單位配合和精細操控擊敗了AI對手。最後更有AI發現了AI不懂得反隱形作戰的弱點,通過運用隱形單位將AI對手擊敗。
今年夏天 AlphaStar 曾嘗試與人類在《星海爭霸2》遊戲中對戰,但當時錄的慘敗的下場,被人類最強選手痛擊。不過在天梯與人類高手的對戰中,AlphaStar依然在 90 場比賽中贏了 61 場。基於在遊戲對戰上的表現,Google旗下公司在星際爭霸 2 上的研究或許可以在數字助理、自動駕駛等領域為人類帶來幫助。
《星海爭霸 2》堪稱人類游戲史上最困難、最成功的即時戰略遊戲,這個系列的遊戲歷史已經超過 20 年。其長盛不衰的原因在於擁有豐富的多層次遊戲機制,對於人工智能研究來說,這是一個非常接近現實世界的虛擬環境。自從國際象棋、圍棋、德州撲克領域相繼被AI攻破,電子遊戲成為了人工智能的「下一個重大挑戰」。而AlphaStar最先將目標鎖定在《星海爭霸2》。
《星海爭霸 2》巨大的操作空間和非完美信息給構建 AlphaStar 的學習和研究過程帶來巨大挑戰。與圍棋不同,《星海爭霸 2》有數百個完全不同的可操作單位,而且他們同時、實時移動,遊戲也不是以有序的回合製方式進行。棋盤博弈在規則中,策略和步數都是有限的,但 AlphaStar 在學習《星海爭霸2》時,每時每刻都有超過數千種動作行為選擇,操作可能性和空間極為龐大。而且與圍棋等完美信息遊戲不同,《星海爭霸 2》屬於是非完美信息遊戲,玩家剛開始是無法得知對手的行動,因此也難以預測對手的行為和策略。
DeepMind 在2017年宣布開始研究能進行即時戰略遊戲《星海爭霸 2》的人工智能——AlphaStar。但其實DeepMind 對這款遊戲的研究已經超過 15 年前開始。去年12月起,AlphaStar就開始陸續擊敗職業玩家,可以熟練操控遊戲中的神族、人族、虫族三大種族,更將自己在人類電子競技實力排名中的位置提升至前1%的實力。據《Nature》論文中描述,AlphaStar 在 Battle.net 上的排名已超越 99.8%的活躍玩家,並且在《星海爭霸 2》的三個種族比賽中都達到了最頂級的大師級水準。研究者表示,希望這些方法可以應用於諸多其他領域。
Deepmind 發現,AlphaStar 的遊戲方式令人印象深刻——這個系統非常擅長評估自身的戰略地位,並且準確地知道什麼時候接近對手、什麼時候遠離。雖然AlphaStar 已經具備了出色的控制力,但它還沒有表現出超人類的能力,至少沒有到那種人類理論無法達到的高度。
雖然研究非常成功,但人工智能AlphaStar的自我博弈卻會一個缺陷:它的能力確實會不斷提升,但它也會忘記如何戰勝之前的自己,會像小狗追著自己的尾巴一樣陷入一個循環,失去繼續提升的機會。
為了解決這個缺陷,Deepmind在《Nature》的論文中提到將自我博弈的AI變成「聯盟」AI的概念。即AI與人類玩家結盟一起訓練特定策略,AI要幫助人類盟友來找出策略的破綻,從而令人類盟友獲得進步。這種研究擺脫了單純的獲勝目的,而是盡可能地限制AI的資源,去幫助盟友發展策略。在這樣的環境下,可以讓AI自動學習到所有的複雜策略,亦能暴露出AI自我學習中存在的問題和不足。
儘管 AlphaStar 已經取得了不錯的成績,但是它並沒有完全打敗頂尖水平的人類玩家。今年 9 月,DeepMind 和暴雪放出了 AlphaStar 在天梯上與各路頂級玩家交手的視頻,其中不乏當世排名前 10 的職業選手。DeepMind 遇上了目前《星海爭霸 2》最強的玩家,芬蘭虫族選手 Serral。在這場 16 分鐘的比賽里,Serral 和 AI 進行了激烈的正面對抗,最終人類選手獲得了勝利。
儘管DeepMind 表示,他們永遠都不會讓這項研究進入軍事領域,而且《星海爭霸2》也並非一個模擬現實戰爭的遊戲,但University of Sheffield 的 AI和機器人學教授Noel Sharkey 表示,DeepMind 的研究結果必然會引起軍方的注意。今年 3 月份,美國政府就已經發佈過一份報告,講述了 AI 如何豐富戰爭模擬以及幫助戰爭玩家評估不同戰術的潛在結果。
Sharkey說:「軍事分析人士肯定會將AlphaStar 實時戰略的成功視為AI 用於作戰規劃優勢的一個明顯例子。但這是一個極度危險的想法,可能會帶來人道主義災難。AlphaStar 從某個環境的大數據中學習戰略,但來自敘利亞、也門等衝突地區的數據太少,無法使用。」「正如DeepMind 在最近的一次聯合國活動中所說的,這種方法對於武器控制來說將是非常危險的,因為這些舉動無法預測並且可能以意想不到的方式發揮作用——這違反了管轄武裝衝突的法律。」