IT大咖解烘焙設備價格讀AlphaGo強大原因:計算能力太過強大
Facebook田淵棟解析算法技術:AlphaGo為什麼這麼厲害?
烘焙食品機械最近我仔細看瞭下AlphaGo在《自然》雜志上發表的文章,寫一些分析給大傢分享。
AlphaGo這個系統主要由幾個部分組成:
走棋網絡(Policy Network),給定當前局面,預測/采樣下一步的走棋。
快速走子(Fast rollout),目標和1一樣,但在適當犧牲走棋質量的條件下,速度要比1快1000倍。
估值網絡(Value Network),給定當前局面,估計是白勝還是黑勝。
蒙特卡羅樹搜索(Monte Carlo Tree Search,MCTS),把以上這三個部分連起來,形成一個完整的系統。
我們的DarkForest和AlphaGo同樣是用4搭建的系統。DarkForest較AlphaGo而言,在訓練時加強瞭1,而少瞭2和3,然後以開源軟件Pachi的缺省策略 (default policy)部分替代瞭2的功能。以下介紹下各部分。
1. 走棋網絡
走棋網絡把當前局面作為輸入,預測/采樣下一步的走棋。它的預測不隻給出最強的一手,而是對棋盤上所有可能的下一著給一個分數。棋盤上有361個點,它就給出361個數,好招的分數比壞招要高。DarkForest在這部分有創新,通過在訓練時預測三步而非一步,提高瞭策略輸出的質量,和他們在使用增強學習進行自我對局後得到的走棋網絡(RL network)的效果相當。當然,他們並沒有在最後的系統中使用增強學習後的網絡,而是用瞭直接通過訓練學習到的網絡(SL network),理由是RL network輸出的走棋缺乏變化,對搜索不利。
有意思的是在AlphaGo為瞭速度上的考慮,隻用瞭寬度為192的網絡,而並沒有使用最好的寬度為384的網絡(見圖2(a)),所以要是GPU更快一點(或者更多一點),AlphaGo肯定是會變得更強的。
所謂的0.1秒走一步,就是純粹用這樣的網絡,下出有最高置信度的合法著法。這種做法一點也沒有做搜索,但是大局觀非常強,不會陷入局部戰鬥中,說它建模瞭“棋感”一點也沒有錯。我們把DarkForest的走棋網絡直接放上KGS就有3d的水平,讓所有人都驚嘆瞭下。可以說,這一波圍棋AI的突破,主要得益於走棋網絡的突破。這個在以前是不可想像的,以前用的是基於規則,或者基於局部形狀再加上簡單線性分類器訓練的走子生成法,需要慢慢調參數年,才有進步。
當然,隻用走棋網絡問題也很多,就我們在DarkForest上看到的來說,會不顧大小無謂爭劫,會無謂脫先,不顧局部死活,對殺出錯,等等。有點像高手不經認真思考的隨手棋。因為走棋網絡沒有價值判斷功能,隻是憑“直覺”在下棋,隻有在加瞭搜索之後,電腦才有價值判斷的能力。
2. 快速走子
那有瞭走棋網絡,為什麼還要做快速走子呢?有兩個原因,首先走棋網絡的運行速度是比較慢的,AlphaGo說是3毫秒,我們這裡也差不多,而快速走子能做到幾微秒級別,差瞭1000倍。所以在走棋網絡沒有返回的時候讓CPU不閑著先搜索起來是很重要的,等到網絡返回更好的攪拌機著法後,再更新對應的著法信息。
其次,快速走子可以用來評估盤面。由於天文數字般的可能局面數,圍棋的搜索是毫無希望走到底的,搜索到一定程度就要對現有局面做個估分。在沒有估值網絡的時候,不像國象可以通過算棋子的分數來對盤面做比較精確的估值,圍棋盤面的估計得要通過模擬走子來進行,從當前盤面一路走到底,不考慮岔路地算出勝負,然後把勝負值作為當前盤面價值的一個估計。這裡有個需要權衡的地方:在同等時間下,模擬走子的質量高,單次估值精度高但走子速度慢;模擬走子速度快乃至使用隨機走子,雖然單次估值精度低,但可以多模擬幾次算平均值,效果未必不好。所以說,如果有一個質量高又速度快的走子策略,那對於棋力的提高是非常有幫助的。
為瞭達到這個目標,神經網絡的模型就顯得太慢,還是要用傳統的局部特征匹配(local pattern matching)加線性回歸(logistic regression)的方法,這辦法雖然不新但非常好使,幾乎所有的廣告推薦,競價排名,新聞排序,都是用的它。與更為傳統的基於規則的方案相比,它在吸納瞭眾多高手對局之後就具備瞭用梯度下降法自動調參的能力,所以性能提高起來會更快更省心。AlphaGo用這個辦法達到瞭2微秒的走子速度和24.2%的走子準確率。24.2%的意思是說它的最好預測和圍棋高手的下子有0.242的概率是重合的,相比之下,走棋網絡在GPU上用2毫秒能達到57%的準確率。這裡,我們就看到瞭走子速度和精度的權衡。
和訓練深度學習模型不同,快速走子用到瞭局部特征匹配,自然需要一些圍棋的領域知識來選擇局部特征。對此AlphaGo隻提供瞭局部特征的數目(見Extended Table 4),而沒有說明特征的具體細節。我最近也實驗瞭他們的辦法,達到瞭25.1%的準確率和4-5微秒的走子速度,然而全系統整合下來並沒有復現他們的水平。我感覺上24.2%並不能完全概括他們快速走子的棋力,因為隻要走錯關鍵的一步,局面判斷就完全錯誤瞭;而圖2(b)更能體現他們快速走子對盤面形勢估計的精確度,要能達到他們圖2(b)這樣的水準,比簡單地匹配24.2%要做更多的工作,而他們並未在文章中強調這一點。
在AlphaGo有瞭快速走子之後,不需要走棋網絡和估值網絡,不借助任何深度學習和GPU的幫助,不使用增強學習,在單機上就已經達到瞭3d的水平(見Extended Table 7倒數第二行),這是相當厲害的瞭。任何使用傳統方法在單機上達到這個水平的圍棋程序,都需要花費數年的時間。在AlphaGo之前,Aja Huang曾經自己寫過非常不錯的圍棋程序,在這方面相信是有很多的積累的。
本文來源:網易體育 作者:雷鋒網
責任編輯:張帥_NS6474
1
2
顯示全文
AUGI SPORTS|重機車靴|重機車靴推薦|重機專用車靴|重機防摔鞋|重機防摔鞋推薦|重機防摔鞋
AUGI SPORTS|augisports|racing boots|urban boots|motorcycle boots
留言列表