伸向人類的“上帝之手”

國際視野

阿耐9年前

來源：IPRdaily.cn 中文網(wǎng)

作者：徐方明審協(xié)北京中心材料部 IP創(chuàng)新贏

原標題：伸向人類的“上帝之手”

小贏說：

提到“上帝之手”，大家可能聯(lián)想到的是馬拉多納的那個傳奇進球，然而今天小編帶你討論的卻是關(guān)于人工智能能否統(tǒng)治人類的討論。

伸向人類的“上帝之手”

相信很多人都知道上圖：

米開朗基羅壁畫《創(chuàng)世紀》中最著名的一部分

上帝將手指伸向亞當

如今，人工智能的快速發(fā)展，

讓很多人對這幅畫又有了新的理解：

是上帝創(chuàng)造了人類，還是人類創(chuàng)造了上帝？

說到人工智能，不得不提到近來霸屏的

AlphaGo

頻頻占據(jù)權(quán)威媒體的頭條，

也再次驚動了CCTV的新聞聯(lián)播

伸向人類的“上帝之手”

歲末年初短短七天，

一個名叫 “Master”的神秘棋手

在網(wǎng)上取得了對中日韓頂級高手的60連勝，

其中包括世界冠軍

柯潔、古力、樸廷桓、井山裕太……

這個“Master”最終被證實為AlphaGo升級版

棋圣聶衛(wèi)平落敗后不禁感嘆：

“阿法狗也好，Master也罷，

都是‘圍棋上帝’派來給人類引路的”。

伸向人類的“上帝之手”

被稱為“手談”的古老智力運動——圍棋，因為變化太多，計算復(fù)雜，成為了人類智力活動最后的堡壘。如今，這最后的堡壘終于被機器攻破，引起了社會和科技界的巨大的轟動和對未來的思考。

簡單回顧一下“阿爾法狗”的發(fā)展歷程

伸向人類的“上帝之手”

2016年1月28日，《Nature》的封面論文介紹了谷歌公司旗下的DeepMind團隊開發(fā)的“阿爾法狗”（AlphaGo）的原理；同時公開宣布AlphaGo以5:0完勝歐洲圍棋冠軍樊麾。

但是，當日圍棋界該程序比賽結(jié)果紛紛表示不屑。因為圍棋在歐洲是小眾項目，歐洲的圍棋冠軍僅僅是中日韓職業(yè)四段左右的水平。

然而，兩個月后，在2016年3月著名的人機大戰(zhàn)中，AlphaGo以4:1戰(zhàn)勝圍棋世界冠軍李世石，讓人們經(jīng)歷了對人工智能從不屑到驚嘆的巨大轉(zhuǎn)變。

伸向人類的“上帝之手”

上圖中，李世石在第4局（2016年3月13日）第78手弈出傳說中的“神之一手”，扭轉(zhuǎn)了局勢，成為唯一戰(zhàn)勝阿爾法狗的一局。當時便有人感嘆：但愿這不是人類最后一次戰(zhàn)勝機器。

不過，中國圍棋選手柯潔，職業(yè)九段

19歲時已經(jīng)拿過四個圍棋世界冠軍

保持著世界大賽14連勝

中國圍棋甲級聯(lián)賽18連勝的記錄

被譽為當今世界圍棋第一人，

當時在其微博放出豪言：

阿爾法狗能戰(zhàn)勝李世石，但戰(zhàn)勝不了我

伸向人類的“上帝之手”

阿爾法狗在閉關(guān)修煉10個月后，以Master的身份

用60連勝將人類高手一一挑落馬下

與“Master”對戰(zhàn)后

一向年少輕狂的柯潔卻說出了這樣的話：

與Master的對戰(zhàn)刷新了我的認知

人類一直遵循的圍棋定勢全是錯的！

我們?nèi)祟惿踔翛]有沾到過圍棋真理的邊

AlphaGo用實戰(zhàn)證明，

所謂靠“棋感”、“味道”判斷進行的對局

并不屬于人類大腦的“專利”。

事實上，AlphaGo的原理在《Nature》發(fā)表之前已經(jīng)公開：那就是通過專利的形式。谷歌申請的WO2015/054264A1（中文同族為CN105637540A）的最早優(yōu)先權(quán)日為2013年5月12日，國際公開日為2015年4月16日，都早于論文在《Nature》的發(fā)表時間。

透過專利WO2015/054264A1我們來解密阿爾法狗的深度強化學(xué)習方法原理：其核心在于搭建了兩個深度神經(jīng)網(wǎng)絡(luò)，將經(jīng)驗數(shù)據(jù)輸入第二神經(jīng)網(wǎng)絡(luò)并進行訓(xùn)練，并根據(jù)第二神經(jīng)網(wǎng)絡(luò)生成或更新第一神經(jīng)網(wǎng)絡(luò)，第一神經(jīng)網(wǎng)絡(luò)又生成目標動作值(action-value)參數(shù)，而第二神經(jīng)網(wǎng)絡(luò)基于第一神經(jīng)網(wǎng)絡(luò)生成的目標而被更新。

簡單的說：其算法就是通過歷史的棋譜模擬下棋，模擬下的棋局又成為歷史棋譜進行學(xué)習，然后不斷的自我學(xué)習迭代提高。

伸向人類的“上帝之手”

什么深度神經(jīng)網(wǎng)絡(luò)？目標動作值？還是結(jié)合《Nature》的AlphaGo文章進行理解。

對應(yīng)上述專利中提及的兩個神經(jīng)網(wǎng)絡(luò)，AlphaGo團隊設(shè)計了策略網(wǎng)絡(luò)（policy network）和價值網(wǎng)絡(luò)（value network），這兩個網(wǎng)絡(luò)分別是由13層和15層的卷積神經(jīng)網(wǎng)絡(luò)所構(gòu)成，以棋盤圖片作為輸入，每層網(wǎng)絡(luò)中應(yīng)用多級的過濾器以獲得每種走法的概率分布或獲勝預(yù)測值，策略網(wǎng)絡(luò)負責篩選可能性較大的走子方案，價值網(wǎng)絡(luò)負責評估盤面獲勝的可能性。綜合兩個網(wǎng)絡(luò)得到目標動作值，如果其低于一個閾值，則AlphaGo認輸，否則通過蒙特卡洛搜索樹將以上二者結(jié)合，選擇訪問計數(shù)(visit count)最大值的落點作為下一步行棋點。

伸向人類的“上帝之手”

策略網(wǎng)絡(luò)能夠?qū)W習圍棋高手的對局，學(xué)習他們是如何選擇下一步的，其還能通過類似于周伯通“雙手博弈”的方式，自我海量對弈強化學(xué)習，不斷優(yōu)化修正習得的人類棋法

（在與李世石對局前AlphaGo便學(xué)習了基于16萬職業(yè)棋手對局數(shù)據(jù)庫而掌握了近3000萬步大師步法秘笈，還進行了3000萬局的自我對弈）

當然，更大的網(wǎng)絡(luò)能夠獲得更好的訓(xùn)練準確度，但在搜索過程中評估會更慢，在用時更短的非正式對局中，樊麾便贏過AlphaGo兩局，此番快棋戰(zhàn)中，Master能取得60連勝，說明DeepMind團隊可能在策略網(wǎng)絡(luò)算法優(yōu)化上取得了新的進步。

價值網(wǎng)絡(luò)是個和策略網(wǎng)絡(luò)結(jié)構(gòu)相似的多層神經(jīng)網(wǎng)絡(luò)，但輸出單一的獲勝預(yù)測值而不是概率分布，判斷誰占優(yōu)。這也是AlphaGo高于人類的地方，價值判斷是人類思考中是很難量化的，棋手只能代之以“厚勢”、“兩分”等可意會不可言傳的模糊判斷，這也是很多棋手希望AlphaGo能公布的后臺數(shù)據(jù)。

（例如胡耀宇九段在微博中這樣說：）

伸向人類的“上帝之手”

當然，人工智能的含義遠不止是挑戰(zhàn)人類智力，它還包括機器人、語音識別、圖像識別、自然語言處理和專家系統(tǒng)等。谷歌之所以收購DeepMind，就是看中了其在反向圖片搜索（reverse image search）領(lǐng)域的兩項專利技術(shù)（US2014/0019431A1和US2014/0019484A1）。

國際上，人工智能的創(chuàng)新和創(chuàng)業(yè)也日趨活躍，F(xiàn)acebook、IBM、Microsoft等世界科技巨頭也紛紛在人工智能領(lǐng)域加強技術(shù)創(chuàng)新和專利布局。

在我國，人工智能也得到政策層面的高度支持，2015年7月國務(wù)院發(fā)布《關(guān)于積極推進“互聯(lián)網(wǎng)+”行動的指導(dǎo)意見》，將人工智能作為重點布局的11個領(lǐng)域之一，2016年四部委聯(lián)合印發(fā)了《“互聯(lián)網(wǎng)+”人工智能三年行動實施方案》，為人工智能發(fā)展提出具體的策略方案。根據(jù)烏鎮(zhèn)智庫2016年度發(fā)布的《烏鎮(zhèn)指數(shù)：全球人工智能發(fā)展報告2016》，中國在人工智能企業(yè)數(shù)量、專利申請量、融資規(guī)模上僅次于美國，發(fā)展?jié)摿薮蟆?/p>

伸向人類的“上帝之手”

最后回到圍棋作為結(jié)束，幾千年的歷史變遷中它經(jīng)歷過幾番塑造，發(fā)源于中國堯舜時代，由日本發(fā)揚光大，上世紀80年代起韓國異軍崛起，本世紀中國又重回世界圍棋之巔。此次卻是由人工智能掀起新一次的圍棋革命，讓人類既驚奇而又困惑。

“人工智能”被認為是未來十年改變世界的最重要的一項技術(shù)，站在風口上，別忘搶占專利的制高點。

來源：IPRdaily.cn 中文網(wǎng)

作者：徐方明審協(xié)北京中心材料部 IP創(chuàng)新贏

編輯：IPRdaily.cn LoCo

校對：IPRdaily.cn 縱橫君

伸向人類的“上帝之手”

本文來自IPRdaily.cn中文網(wǎng)并經(jīng)IPRdaily.cn中文網(wǎng)編輯。轉(zhuǎn)載此文章須經(jīng)權(quán)利人同意，并附上出處與作者信息。文章不代表IPRdaily.cn立場，如若轉(zhuǎn)載，請注明出處：“http://m.jupyterflow.com/”