maxresdefault

單獨的AlphaGo 跟最好的電腦圍棋AI 差不多強,但當綜合使用這些手段後,就可能到達職業人類選手水準。哪麼DeepMind 研發的圍棋AI AlphaGo 系統是如何下棋的?


谷歌DeepMind宣布他們研發的神經網絡圍棋AI,AlphaGo,在2015年10月首次5:0戰勝了人類職業選手歐洲圍棋冠軍Fan Hui二段。這篇論文由David Silver等完成。裡面的技術是出於意料的簡單卻又強大。為了方便不熟悉技術的小白理解,這裡是我對系統工作原理的解讀。下面主要編譯與:How AlphaGo Works,原作者是 SpinPunch CTO DAN MAAS。
深度學習

“深度學習”是指多層的人工神經網絡和訓練它的方法。一層神經網絡會把大量矩陣數字作為輸入,通過非線性激活方法取權重,再產生另一個數據集合作為輸出。這就像生物神經大腦的工作機理一樣,通過合適的矩陣數量,多層組織鏈接一起,形成神經網絡“大腦”進行精準複雜的處理,就像人們識別物體標註圖片一樣。

雖然神經網絡在幾十年前就有了,直到最近才形勢明朗。這是因為他們需要大量的“訓練”去發現矩陣中的數字價值。對早期研究者來說,想要獲得不錯效果的最小量訓練都遠遠超過計算能力和能提供的數據的大小。但最近幾年,一些能獲取海量資源的團隊重現挖掘神經網絡,就是通過“大數據”技術來高效訓練。

兩個大腦

AlphaGo 是通過兩個不同神經網絡“大腦”合作來改進下棋。這些大腦是多層神經網絡跟那些Google 圖片搜索引擎識別圖片在結構上是相似的。它們從多層啟發式二維過濾器開始,去處理圍棋棋盤的定位,就像圖片分類器網絡處理圖片一樣。經過過濾,13 個完全連接的神經網絡層產生對它們看到的局面判斷。這些層能夠做分類和邏輯推理。

這些網絡通過反覆訓練來檢查結果,再去校對調整參數,去讓下次執行更好。這個處理器有大量的隨機性元素,所以我們是不可能精確知道網絡是如何“思考”的,但更多的訓練後能讓它進化到更好。

第一大腦: 落子選擇器(Move Picker)

AlphaGo 的第一個神經網絡大腦是“監督學習的策略網絡(Policy Network)” ,觀察棋盤佈局企圖找到最佳的下一步。事實上,它預測每一個合法下一步的最佳機率,那麼最前面猜測的就是那個機率最高的。你可以理解成“落子選擇器”。

落子選擇器是怎麼看到棋盤的?數字表示最強人類選手會下在哪些地方的可能。

團隊通過在KGS(網絡圍棋對戰平台)上最強人類對手,百萬級的對弈落子去訓練大腦。這就是AlphaGo 最像人的地方,目標是去學習那些頂尖高手的妙手。這個不是為了去下贏,而是去找一個跟人類高手同樣的下一步落子。AlphaGo 落子選擇器能正確符合57%的人類高手。(不符合的不是意味著錯誤,有可能人類自己犯的失誤)

更強的落子選擇器

AlphaGo 系統事實上需要兩個額外落子選擇器的大腦。一個是“強化學習的策略網絡(Policy Network)”,通過百萬級額外的模擬局來完成。你可以稱之為更強的。比起基本的訓練,只是教網絡去模仿單一人類的落子,高級的訓練會與每一個模擬棋局下到底,教網絡最可能贏的下一手。Sliver 團隊通過更強的落子選擇器總結了百萬級訓練棋局,比他們之前版本又疊代了不少。

單單用這種落子選擇器就已經是強大的對手了,可以到業餘棋手的水準,或者說跟之前最強的圍棋AI 媲美。這裡重點是這種落子選擇器不會去“讀”。它就是簡單審視從單一棋盤位置,再提出從那個位置分析出來的落子。它不會去模擬任何未來的走法。這展示了簡單的深度神經網絡學習的力量。

更快的落子選擇器

AlphaGo 當然團隊沒有在這裡止步。下面我會闡述是如何將閱讀能力賦予AI 的。為了做到這一點,他們需要更快版本的落子選擇器大腦。越強的版本在耗時上越久-為了產生一個不錯的落子也足夠快了,但“閱讀結構”需要去檢查幾千種落子可能性才能做決定。

Silver 團隊建立簡單的落子選擇器去做出“快速閱讀”的版本,他們稱之為“滾動網絡”。簡單版本是不會看整個19*19 的棋盤,但會在對手之前下的和新下的棋子中考慮,觀察一個更小的窗口。去掉部分落子選擇器大腦會損失一些實力,但輕量級版本能夠比之前快1000 倍,這讓“閱讀結構”成了可能。

第二大腦:棋局評估器(Position Evaluator)

AlphaGo 的第二個大腦相對於落子選擇器是回答另一個問題。不是去猜測具體下一步,它預測每一個棋手贏棋的可能,在給定棋子位置情況下。這“局面評估器”就是論文中提到的“價值網絡(Value Network)”,通過整體局面判斷來輔助落子選擇器。這個判斷僅僅是大概的,但對於閱讀速度提高很有幫助。通過分類潛在的未來局面的“好”與“壞”,AlphaGo 能夠決定是否通過特殊變種去深入閱讀。如果局面評估器說這個特殊變種不行,那麼AI 就跳過閱讀在這一條線上的任何更多落子。



局面評估器是怎麼看這個棋盤的。深藍色表示下一步有利於贏棋的位置。

局面評估器也通過百萬級別的棋局做訓練。Silver 團隊通過複製兩個AlphaGo 的最強落子選擇器,精心挑選隨機樣本創造了這些局面。這裡AI 落子選擇器在高效創建大規模數據集去訓練局面評估器是非常有價值的。這種落子選擇器讓大家去模擬繼續往下走的很多可能,從任意給定棋盤局面去猜測大致的雙方贏棋機率。而人類的棋局還不夠多恐怕難以完成這種訓練。

增加閱讀

這裡做了三個版本的落子選擇大腦,加上局面評估大腦,AlphaGo 可以有效去閱讀未來走法和步驟了。閱讀跟大多數圍棋AI 一樣,通過蒙特卡洛樹搜索(MCTS)算法來完成。但AlphaGo 比其他AI 都要聰明,能夠更加智能的猜測哪個變種去探測,需要多深去探測。

蒙特卡洛樹搜索算法

如果擁有無限的計算能力,MCTS 可以理論上去計算最佳落子通過探索每一局的可能步驟。但未來走法的搜索空間對於圍棋來說太大了(大到比我們認知宇宙裡的粒子還多),實際上AI 沒有辦法探索每一個可能的變種。MCTS 做法比其他AI 有多好的原因是在識別有利的變種,這樣可以跳過一些不利的。

Silver 團隊讓AlphaGo 裝上MCTS 系統的模組,這種框架讓設計者去嵌入不同的功能去評估變種。最後馬力全開的AlphaGo 系統按如下方式使用了所有這些大腦。

    1. 從當前的棋盤佈局,選擇哪些下一步的可能性。他們用基礎的落子選擇器大腦(他們嘗試使用更強的版本,但事實上讓AlphaGo 更弱,因為這沒有讓MCTS 提供更廣闊的選擇空間)。它集中在“明顯最好”的落子而不是閱讀很多,而不是再去選擇也許對後來有利的下法。
  1.  對於每一個可能的落子,評估質量有兩種方式:要麼用棋盤上局面評估器在落子後,要么運行更深入蒙特卡羅模擬器(滾動)去思考未來的落子,使用快速閱讀的落子選擇器去提高搜索速度。AlphaGo 使用簡單參數,“混合相關係數”,將每一個猜測取權重。最大馬力的AlphaGo 使用50/50 的混合比,使用局面評估器和模擬化滾動去做平衡判斷。

這篇論文包含一個隨著他們使用插件的不同,AlphaGo 的能力變化和上述步驟的模擬。僅使用獨立大腦,AlphaGo 跟最好的計算機圍棋AI 差不多強,但當使用這些綜合手段,就可能到達職業人類選手水準。

AlphaGo的能力變化與MCTS的插件是否使用有關。
這篇論文還詳細講了一些工程優化:分佈式計算,網絡計算機去提升MCTS 速度,但這些都沒有改變基礎算法。這些算法部中分精確,部分近似。在特別情況下,AlphaGo 通過更強的計算能力變的更強,但計算單元的提升率隨著性能變強而減緩。

優勢和劣勢

我認為AlphaGo 在小規模戰術上會非常厲害。它知道通過很多位置和類型找到人類最好的下法,所以不會在給定小範圍的戰術條件下犯明顯錯誤。

但是,AlphaGo 有個弱點在全局判斷上。它看到棋盤式通過5*5 金字塔似的過濾,這樣對於集成戰術小塊變成戰略整體上帶來麻煩,同樣道理,圖片分類神經網絡往往對包含一個東西和另一個的搞不清。比如說圍棋在角落上一個定式造成一個牆或者引徵,這會劇烈改變另一個角上的位置估值。

GMS0095

就像其他的基於MCTS 的AI, AlphaGo 對於需要很深入閱讀才能解決的大勢判斷上,還是麻煩重重的,比如說大龍生死劫。AlphaGo 對一些故意看起來正常的局也會失去判斷,天元開盤或者少見的定式,因為很多訓練是基於人類的棋局庫。

我還是很期待看到AlphaGo 和李世石9 段的對決!我預測是:如果李使用定式,就像跟其他職業棋手的對決,他可能會輸,但如果他讓AlphaGo 陷入到不熟悉情形下,他可能就贏。

(不過,目前已知李世石已經輸了第一場比賽,這場比賽仍在進行當中~3月15日)

參考資料:
Nature論文:http://www.nature.com/nature/journal/v529/n7587/full/nature16961.html
關於AlphaGo 論文的閱讀筆記_36 氪

推薦閱讀:

人類最後的智力驕傲崩潰了!Google AI「完勝」圍棋冠軍

從生物學看「網路經濟」:錢是這個世界上最聰明,也是最負責任的東西!

先別提養兒防老了,世界各國「養活」孩子有多難?

機器人即將搶走你的工作:影響全球數十億人的7大自動化技術發展,現在開始重新定義工作目的,幸福慢活

getImage

來自全球最聰明的奇點大學畢業生的知識分享——
影響全球數十億人的7大自動化技術發展,
目前正在指數成長,即將大幅改變人類文明的發展軌跡。
這些趨勢及心理準備,你知道多少?

本書作者皮斯托諾為奇點大學畢業生,奇點大學號稱全球「最聰明大學」,是由Google、NASA和科技業精英在美國矽谷共創的學術、智庫暨商業育成機構,旨在「教育、啟迪與賦能各界人士應用指數型科技,以應付人類面臨的重大挑戰。」

皮斯托諾在本書以簡單明瞭的方式,為我們介紹指數型成長的含義,帶我們認識目前已在精進中的7大自動化技術發展,在未來可能大規模取代人力,造成長期失業等社經問題,包括——

.自動化購物:亞馬遜網路書店使用機器人進行全自動倉儲撿貨。

.自動化生產:鴻海/富士康、佳能等製造業大廠投入大筆資金研發機器人生產技術。

.3D列印:目前已有數十萬個自由分享的設計檔案供人們分享,3D列印的成品除了用在工商業用途及嗜好上,也有許多用於醫學及義肢的成功案例。

.自動化建築工程:中國的科技集團能在15天蓋好一棟耐震9級且防霾害的30層大樓。

.自動化新聞作業:目前已有大型媒體使用機器人撰寫新聞報導。

.人工智慧助理:2011年IBM的超級電腦「華生」擊敗了美國長青益智節目的兩位冠軍,儘管蘋果的Siri尚待加強,但在指數成長的發展下未來可期。

.無人駕駛車輛:Google的自動駕駛車自2009年測試以來,至今已有美國內華達州允許合法掛牌上路,其他各國也陸續允許合法上路測試。此類車輛的自動駕駛比人類駕駛更謹慎,未來的發展同樣可期。

皮斯托諾指出,在生活比50年前更便利、進步的今天,我們的工時非但沒有減少一週,反而成為長期過勞的倦怠社會。這是現有社會經濟結構的根本問題,在鼓勵追求經濟成長的氛圍之下,我們努力消費一些其實並不真正需要的東西,「工作—消費—生產」的循環周而復始。

工作的目的是什麼?什麼樣的生活才算幸福?皮斯托諾在本書也探討幸福的定義,並且提出一些人人都可在日常生活中落實的「慢活」(downshifting)方法,包含增進每日幸福感的小訣竅,以及聰明花費更快樂的8項原則。

我們正面臨新一波的工業革命,此次的工業革命把力量交回人們手裡——全球各地的創客、開放源碼支持者,以及勤奮的發明家與創造者,正在快速塑造未來。皮斯托諾認為:機器人即將搶走你的工作,但沒關係,人類擁有高度的適應能力,該是典範轉移的時候了。我們正處於新文明的開端,未來是美好的。

前瞻推薦

「非常出色,這是一本重要著作。我很喜歡!」——彼得.戴曼迪斯(Peter Diamandis),奇點大學共同創辦人暨執行董事長

「想了解自動化與就業之間的複雜關係,需要實證分析與深入細微的調查,本書對這個主題提供了獨特、無畏的見解。皮斯托諾的分析角度反映了他對人與技術的熱愛與樂觀,十分具有建設性,相信我們的未來是美好的,但也具有爭議性。無論你是否認同他的一些觀點,本書都值得你一讀,請加入討論行列。」——尼爾.傑卡布斯坦(Neil Jacobstein),奇點大學人工智慧與機器人學課程共同主任

「本書對我們現今面臨的一個基本課題作出聰穎、幽默、周詳且重要的探討。」——大衛.歐爾班(David Orban),影片字幕翻譯平台Dotsub執行長、奇點大學人工智慧歐洲課程總監

「本書的廣度令人欽佩,觸及經濟學、社會學、哲學、道德觀、人工智慧,有時在同一段內容探討這些主題。作者皮斯托諾試圖建構一個人類在更少物質需求下過得更幸福的未來社會,但他不是用預言式的天啟觀展望未來,而是以光明面的樂觀主義展望未來,告訴我們未來並不黯淡。光是這點,就值得你閱讀這本書。」——皮耶羅.斯加魯菲(Piero Scaruffi),軟體顧問師、哈佛大學與史丹佛大學客座學者

「感謝分享這本好書,我從不吸毒,但我想閱讀此書的感受大概就像吸毒後的感覺吧。」——維韋克.瓦德華(Vivek Wadhwa),科技創業家、史丹佛大學法商學院企業治理中心研究學者

「我很喜歡這本書,數據正確、建議很好,最後的注釋也很實用。」——丹.巴利(Dan Barry),NASA太空人、好幫手機器人(Fellow Robots)創辦人

「這本書寫得很好,立論清楚,真是一本佳作。」——凱依.科普洛維茲(Kay Koplovitz),女性創業平台跳板企業(Springboard Enterprises)創辦人

購買機器人即將搶走你的工作:影響全球數十億人的7大自動化技術發展,現在開始重新定義工作目的,幸福慢活點此

<視界奇觀>編譯整理>資料來源:知乎,文/董飛

<視界奇觀> 希望能帶給大家各式有趣又有質感的內容,喜歡的話趕緊按下like,加入我們的粉絲吧!