在5G的加持下,許多產業通過人工智能來讓產品更人性化。但這大多只是人工智能通過算法、算力和大數據,實現優化服務的結果,不能代表人工智能更接近人類。來自深圳艾文哲思科技有限公司的混沌研究院,為了讓人工智能更接近人類,通過博弈論的納什均衡策略組合,讓人工智能可以處理現實中的非完美信息。混沌研究院成功研發國內首個智能決策人工智能機器人:神策·DeepTexas,并應用于撲克比賽中,從而讓AI更接近人類,進而超越人類。
從AlphaGo的深度學習技術在圍棋中展現的實力,即人工智能在有章可循、完美信息的情況下,可以展現的超越人類的計算能力。但現實世界錯綜復雜, 90%以上的場景都是非完美信息,甚至包括對人類想法的推測,這是AlphaGo所力所不及的,它不能感受幸運、了解決策,它只能按部就班地基于人類制定的規則循序漸進。而混沌研究院所研發的國內首個智能決策類人工智能機器人:神策·DeepTexas,卻另辟蹊徑,攻克了這個曠日持久的難題。其獨創的算法:Fast-Net、FRM、TSW,能結合神經網絡,運用機器學習、強化學習、蒙特卡洛算法,讓人工智能不僅擁有對完美信息的處理能力,更擁有對非完美信息的解析和決策能力。
在人工智能領域的創新中,撲克與麻將類似,都比圍棋比賽有更嚴格的“決策”要求。即在包含幾率、可能性、推測的情景中,人工智能要對這些信息進行處理,并根據情景進行推理,從而做出相應的決策。“神策·DeepTexas”通過多年的研究,憑借在撲克比賽中的實踐,終于擁有了“直覺”與“智能決策”,不僅進一步擴大了掌握博弈論的人工智能的應用,更具備了處理非完美信息的解析和決策判斷能力。
為了進一步了解智能決策AI相關問題,我們還采訪到了混沌研究院的工程師們。他們大多都是經驗豐富的資深工程師, 來自谷歌、蘋果、華為、聯想、酷派等知名企業。
以下是混沌研究院DeepTexas團隊負責人鮑凌威的專訪實錄:
問:請給我們介紹一下神策·DeepTexas的核心技術、算法以及它能提供的服務?
答:DeepTexas的核心算法是基于機器學習、強化學習和博弈論, 采用納什均衡的對戰策略,通過大量MC(Monte Carlo)蒙特卡洛采樣來計算CFR(Counterfactual Regret Minimization 虛擬遺憾最小化)的值域或頻域作為DQN神經網絡的行動Value,探索和選取GTO最優策略,并在博弈中不斷自我學習,從而優化并最終形成最優決策。 通過我們獨創的“神策 DeepTexas”人工智能決策算法,如Fast-Net、FRM、TSW,可以幫助人類應對錯綜復雜的現實場景,做出最有效的智能決策,可以大量應用到諸如金融投資、公共安全、智能游戲、自動駕駛、物流存儲、醫療健康等業務領域。
問:作為中國第一個做出撲克比賽類人工智能的團隊,能否說明一下為什么會有這種選擇呢?
答:人工智能是大勢所趨,國家也在大力促進人工智能的發展,雖然阿法爾狗已經完成了對完美信息場景下的決策預判,但現實生活中,90%以上的場景都是非完美信息,這就需要人工智能能夠更有效地對此復雜情況做更深入的解析和預判,幫助人類從錯綜復雜的場景中做出最有效的智能決策,況且我們有豐富的撲克比賽經驗和業務團隊,做撲克比賽類人工智能是我們必然的戰略選擇。
問:神策·DeepTexas也會欺騙嗎?
答:會的,神策·DeepTexas會模仿人類的欺騙進行圈套的設計,根據自己所處的環境、目標的行動進行適當的欺騙。DeepTexas已經通過了圖靈測試,具備與人類一較高下的Bluff能力。
問:眾所周知,比賽的重點是在于他的公正性,那么團隊是如何來保證神策·DeepTexas的公正性的?
答:為了保證AI的公正性,線上我們采用國際公認的ACPC標準。 加拿大阿爾伯特大學的DeepStack 和 CMU 的Librutas和 Pluribus 也都使用ACPC標準。在實驗中,我們結合真人與人工智能的互動進行策略倒算,從而驗證智能決策AI的公正性,保障智能決策AI在更嚴謹的情景中,例如金融、公共安全等領域中,能夠有更完美的表現。
問:有人認為人工智能的發展對投機思維帶來致命的打擊,你認為人工智能的發展會對各行各業造成什么影響呢?
答:不必過分解讀。 人工智能的出現已經對各行各業都會帶來了不小的沖擊,這是真正的第四次工業革命。其實危機就是危險和機遇,永遠相伴而生,此消彼長。就像這次的冠狀病毒一樣,災難中就孕育著機會,正所謂浴火重生。我們的DeepTexas在實驗中可以幫助人類通過對非完美信息的解析和預判,做出最有效的智能決策,從而幫助人類提高抗風險能力、驗證反欺詐策略的可靠性,進而提高對錯綜復雜事務的判斷力和決策力。
問:神策·DeepTexas攻克“不完美信息”,它在真實社會中反映著解決了那些問題場景呢?未來對人類的工作生活又會有哪些影響與改變?請舉一些例子?
答:對“不完美信息”的攻克,可以幫助人類對真實社會中存在的大量非完美信息做出最有效的智能決策,如自動駕駛、營銷決策、物流倉儲、衛生健康、公共安全等,比如可以應用我們的研發成果,建立競拍報價決策模型,確定最佳報價進行投標,獲得收益最大化。
問:神策·DeepTexas會在未來有何動作呢?
答:神策·DeepTexas目前的實驗版本是 1對1人機模式,未來會向多人模式發展,并在后續舉辦真人與AI的線下挑戰賽事,與多個人類斗智斗勇。同時也會基于我們的AI智能決策算法,將研發成果不僅僅運用在撲克比賽上,還能應用于金融投資、公共安全、智能交通、物流存儲、醫療健康等各個領域,幫助客戶應對海量錯綜復雜的非完美信息,提升工作效率。