policy國務(wù)院科技巨頭專利專利專利專利
來源:IPRdaily.cn 中文網(wǎng)
作者:徐方明 審協(xié)北京中心材料部 IP創(chuàng)新贏
原標(biāo)題:伸向人類的“上帝之手”
小贏說:
提到“上帝之手”,大家可能聯(lián)想到的是馬拉多納的那個傳奇進球,然而今天小編帶你討論的卻是關(guān)于人工智能能否統(tǒng)治人類的討論。
相信很多人都知道上圖:
米開朗基羅壁畫《創(chuàng)世紀》中最著名的一部分
上帝將手指伸向亞當(dāng)
如今,人工智能的快速發(fā)展,
讓很多人對這幅畫又有了新的理解:
是上帝創(chuàng)造了人類,還是人類創(chuàng)造了上帝?
說到人工智能,不得不提到近來霸屏的
頻頻占據(jù)權(quán)威媒體的頭條,
也再次驚動了CCTV的新聞聯(lián)播
歲末年初短短七天,
一個名叫 “Master”的神秘棋手
在網(wǎng)上取得了對中日韓頂級高手的60連勝,
其中包括世界冠軍
柯潔、古力、樸廷桓、井山裕太……
這個“Master”最終被證實為AlphaGo升級版
“阿法狗也好,Master也罷,
都是‘圍棋上帝’派來給人類引路的”。
被稱為“手談”的古老智力運動——圍棋,因為變化太多,計算復(fù)雜,成為了人類智力活動最后的堡壘。如今,這最后的堡壘終于被機器攻破,引起了社會和科技界的巨大的轟動和對未來的思考。
簡單回顧一下“阿爾法狗”的發(fā)展歷程
2016年1月28日,《Nature》的封面論文介紹了谷歌公司旗下的DeepMind團隊開發(fā)的“阿爾法狗”(AlphaGo)的原理;同時公開宣布AlphaGo以5:0完勝歐洲圍棋冠軍樊麾。
但是,當(dāng)日圍棋界該程序比賽結(jié)果紛紛表示不屑。因為圍棋在歐洲是小眾項目,歐洲的圍棋冠軍僅僅是中日韓職業(yè)四段左右的水平。
然而,兩個月后,在2016年3月著名的人機大戰(zhàn)中,AlphaGo以4:1戰(zhàn)勝圍棋世界冠軍李世石,讓人們經(jīng)歷了對人工智能從不屑到驚嘆的巨大轉(zhuǎn)變。
上圖中,李世石在第4局(2016年3月13日)第78手弈出傳說中的“神之一手”,扭轉(zhuǎn)了局勢,成為唯一戰(zhàn)勝阿爾法狗的一局。當(dāng)時便有人感嘆:但愿這不是人類最后一次戰(zhàn)勝機器。
不過,中國圍棋選手柯潔,職業(yè)九段
19歲時已經(jīng)拿過四個圍棋世界冠軍
保持著世界大賽14連勝
中國圍棋甲級聯(lián)賽18連勝的記錄
被譽為當(dāng)今世界圍棋第一人,
當(dāng)時在其微博放出豪言:
阿爾法狗能戰(zhàn)勝李世石,但戰(zhàn)勝不了我
阿爾法狗在閉關(guān)修煉10個月后,以Master的身份
用60連勝將人類高手一一挑落馬下
與“Master”對戰(zhàn)后
一向年少輕狂的柯潔卻說出了這樣的話:
與Master的對戰(zhàn)刷新了我的認知
人類一直遵循的圍棋定勢全是錯的!
我們?nèi)祟惿踔翛]有沾到過圍棋真理的邊
AlphaGo用實戰(zhàn)證明,
所謂靠“棋感”、“味道”判斷進行的對局
并不屬于人類大腦的“專利”。
事實上,AlphaGo的原理在《Nature》發(fā)表之前已經(jīng)公開:那就是通過專利的形式。谷歌申請的WO2015/054264A1(中文同族為CN105637540A)的最早優(yōu)先權(quán)日為2013年5月12日,國際公開日為2015年4月16日,都早于論文在《Nature》的發(fā)表時間。
透過專利WO2015/054264A1我們來解密阿爾法狗的深度強化學(xué)習(xí)方法原理:其核心在于搭建了兩個深度神經(jīng)網(wǎng)絡(luò),將經(jīng)驗數(shù)據(jù)輸入第二神經(jīng)網(wǎng)絡(luò)并進行訓(xùn)練,并根據(jù)第二神經(jīng)網(wǎng)絡(luò)生成或更新第一神經(jīng)網(wǎng)絡(luò),第一神經(jīng)網(wǎng)絡(luò)又生成目標(biāo)動作值(action-value)參數(shù),而第二神經(jīng)網(wǎng)絡(luò)基于第一神經(jīng)網(wǎng)絡(luò)生成的目標(biāo)而被更新。
簡單的說:其算法就是通過歷史的棋譜模擬下棋,模擬下的棋局又成為歷史棋譜進行學(xué)習(xí),然后不斷的自我學(xué)習(xí)迭代提高。
什么深度神經(jīng)網(wǎng)絡(luò)?目標(biāo)動作值?還是結(jié)合《Nature》的AlphaGo文章進行理解。
對應(yīng)上述專利中提及的兩個神經(jīng)網(wǎng)絡(luò),AlphaGo團隊設(shè)計了策略網(wǎng)絡(luò)(policy network)和價值網(wǎng)絡(luò)(value network),這兩個網(wǎng)絡(luò)分別是由13層和15層的卷積神經(jīng)網(wǎng)絡(luò)所構(gòu)成,以棋盤圖片作為輸入,每層網(wǎng)絡(luò)中應(yīng)用多級的過濾器以獲得每種走法的概率分布或獲勝預(yù)測值,策略網(wǎng)絡(luò)負責(zé)篩選可能性較大的走子方案,價值網(wǎng)絡(luò)負責(zé)評估盤面獲勝的可能性。綜合兩個網(wǎng)絡(luò)得到目標(biāo)動作值,如果其低于一個閾值,則AlphaGo認輸,否則通過蒙特卡洛搜索樹將以上二者結(jié)合,選擇訪問計數(shù)(visit count)最大值的落點作為下一步行棋點。
策略網(wǎng)絡(luò)能夠?qū)W習(xí)圍棋高手的對局,學(xué)習(xí)他們是如何選擇下一步的,其還能通過類似于周伯通“雙手博弈”的方式,自我海量對弈強化學(xué)習(xí),不斷優(yōu)化修正習(xí)得的人類棋法
(在與李世石對局前AlphaGo便學(xué)習(xí)了基于16萬職業(yè)棋手對局數(shù)據(jù)庫而掌握了近3000萬步大師步法秘笈,還進行了3000萬局的自我對弈)
當(dāng)然,更大的網(wǎng)絡(luò)能夠獲得更好的訓(xùn)練準(zhǔn)確度,但在搜索過程中評估會更慢,在用時更短的非正式對局中,樊麾便贏過AlphaGo兩局,此番快棋戰(zhàn)中,Master能取得60連勝,說明DeepMind團隊可能在策略網(wǎng)絡(luò)算法優(yōu)化上取得了新的進步。
價值網(wǎng)絡(luò)是個和策略網(wǎng)絡(luò)結(jié)構(gòu)相似的多層神經(jīng)網(wǎng)絡(luò),但輸出單一的獲勝預(yù)測值而不是概率分布,判斷誰占優(yōu)。這也是AlphaGo高于人類的地方,價值判斷是人類思考中是很難量化的,棋手只能代之以“厚勢”、“兩分”等可意會不可言傳的模糊判斷,這也是很多棋手希望AlphaGo能公布的后臺數(shù)據(jù)。
(例如胡耀宇九段在微博中這樣說:)
當(dāng)然,人工智能的含義遠不止是挑戰(zhàn)人類智力,它還包括機器人、語音識別、圖像識別、自然語言處理和專家系統(tǒng)等。谷歌之所以收購DeepMind,就是看中了其在反向圖片搜索(reverse image search)領(lǐng)域的兩項專利技術(shù)(US2014/0019431A1和US2014/0019484A1)。
國際上,人工智能的創(chuàng)新和創(chuàng)業(yè)也日趨活躍,F(xiàn)acebook、IBM、Microsoft等世界科技巨頭也紛紛在人工智能領(lǐng)域加強技術(shù)創(chuàng)新和專利布局。
在我國,人工智能也得到政策層面的高度支持,2015年7月國務(wù)院發(fā)布《關(guān)于積極推進“互聯(lián)網(wǎng)+”行動的指導(dǎo)意見》,將人工智能作為重點布局的11個領(lǐng)域之一,2016年四部委聯(lián)合印發(fā)了《“互聯(lián)網(wǎng)+”人工智能三年行動實施方案》,為人工智能發(fā)展提出具體的策略方案。根據(jù)烏鎮(zhèn)智庫2016年度發(fā)布的《烏鎮(zhèn)指數(shù):全球人工智能發(fā)展報告2016》,中國在人工智能企業(yè)數(shù)量、專利申請量、融資規(guī)模上僅次于美國,發(fā)展?jié)摿薮蟆?/p>
最后回到圍棋作為結(jié)束,幾千年的歷史變遷中它經(jīng)歷過幾番塑造,發(fā)源于中國堯舜時代,由日本發(fā)揚光大,上世紀80年代起韓國異軍崛起,本世紀中國又重回世界圍棋之巔。此次卻是由人工智能掀起新一次的圍棋革命,讓人類既驚奇而又困惑。
“人工智能”被認為是未來十年改變世界的最重要的一項技術(shù),站在風(fēng)口上,別忘搶占專利的制高點。
來源:IPRdaily.cn 中文網(wǎng)
作者:徐方明 審協(xié)北京中心材料部 IP創(chuàng)新贏
編輯:IPRdaily.cn LoCo
校對:IPRdaily.cn 縱橫君
本文來自IPRdaily.cn中文網(wǎng)并經(jīng)IPRdaily.cn中文網(wǎng)編輯。轉(zhuǎn)載此文章須經(jīng)權(quán)利人同意,并附上出處與作者信息。文章不代表IPRdaily.cn立場,如若轉(zhuǎn)載,請注明出處:“http://m.jupyterflow.com/”
Facebook實際以30億美元收購Oculus 否認后者竊取知識產(chǎn)權(quán)的指控
企業(yè)名稱與商標(biāo)權(quán)沖突中馳名商標(biāo)認定及責(zé)任承擔(dān)
文章不錯,犒勞下辛苦的作者吧