計(jì)算機(jī)視覺(jué)技術(shù)專利分析

#本文僅代表作者觀點(diǎn)，不代表IPRdaily立場(chǎng)#

原標(biāo)題：專利深一度|計(jì)算機(jī)視覺(jué)技術(shù)專利分析

人隨著深度學(xué)習(xí)的快速發(fā)展，計(jì)算機(jī)視覺(jué)與語(yǔ)音識(shí)別、自然語(yǔ)言處理共同構(gòu)成了人工智能的三個(gè)關(guān)鍵應(yīng)用技術(shù)。計(jì)算機(jī)視覺(jué)賦予機(jī)器感知和認(rèn)知世界的功能。

基于行業(yè)發(fā)展需求，國(guó)家知識(shí)產(chǎn)權(quán)局專利分析普及推廣項(xiàng)目人工智能關(guān)鍵技術(shù)課題組從計(jì)算機(jī)視覺(jué)技術(shù)專利整體現(xiàn)狀，智能安防、自動(dòng)駕駛和醫(yī)療影像三大應(yīng)用領(lǐng)域?qū)＠季?，?duì)計(jì)算機(jī)視覺(jué)技術(shù)進(jìn)行了深度剖析。

專利整體現(xiàn)狀

受益于深度學(xué)習(xí)算法的優(yōu)化、計(jì)算能力的突破以及數(shù)據(jù)的積累，計(jì)算機(jī)視覺(jué)技術(shù)從2012年開(kāi)始快速迭代，不斷推陳出新。2012年，ImageNet大規(guī)模視覺(jué)識(shí)別挑戰(zhàn)賽中，冠軍團(tuán)隊(duì)使用深度學(xué)習(xí)算法將識(shí)別錯(cuò)誤率降低了10%，成為影響人工智能進(jìn)程的里程碑事件，從此計(jì)算機(jī)視覺(jué)技術(shù)商業(yè)化落地能力不斷提高，迎來(lái)了突破性發(fā)展。

計(jì)算機(jī)視覺(jué)技術(shù)專利分析

伴隨著技術(shù)的創(chuàng)新與突破，全球計(jì)算機(jī)視覺(jué)技術(shù)專利申請(qǐng)量開(kāi)始激增，呈現(xiàn)指數(shù)增長(zhǎng)，從2010年的200多件激增至2016年4000多件。中國(guó)近年來(lái)專利申請(qǐng)量連續(xù)取得世界第一，再加上中國(guó)對(duì)人工智能技術(shù)的重視，又是世界上最大的目標(biāo)市場(chǎng)，因此中國(guó)以67.7%的占比，排在目標(biāo)國(guó)申請(qǐng)量的首位，美國(guó)以近22%位居第二。

計(jì)算機(jī)視覺(jué)應(yīng)用領(lǐng)域。

01、助力智能安防

隨著安防產(chǎn)品應(yīng)用領(lǐng)域的不斷擴(kuò)張，傳統(tǒng)安防技術(shù)的計(jì)算能力不足以應(yīng)對(duì)日益增長(zhǎng)的視頻和圖像數(shù)據(jù)，識(shí)別效率和識(shí)別準(zhǔn)確率也阻礙安防產(chǎn)業(yè)進(jìn)一步發(fā)展。計(jì)算機(jī)視覺(jué)技術(shù)中人臉識(shí)別技術(shù)具備超越人眼的實(shí)時(shí)識(shí)別準(zhǔn)確率,與安防使用場(chǎng)景契合度較高，已成為智能安防的關(guān)鍵技術(shù)之一。

計(jì)算機(jī)視覺(jué)技術(shù)專利分析

智能安防中的人臉識(shí)別算法經(jīng)歷了早期算法、人工特征+分類器、深度學(xué)習(xí)三個(gè)階段。早期算法有基于幾何特征的算法，基于模板匹配的算法，子空間算法等多種類型，這些算法嚴(yán)重依賴訓(xùn)練集和測(cè)試集場(chǎng)景，且對(duì)光照、人臉的表情、姿態(tài)敏感，泛化能力不足，不具有太多的實(shí)用價(jià)值；第二階段的人臉識(shí)別算法普遍采用了人工特征+分類器的思路，部分解決了光照敏感問(wèn)題，但還是存在姿態(tài)和表情的問(wèn)題；目前利用深度學(xué)習(xí)的人臉識(shí)別算法已成主流，極大地提高了智能安防實(shí)時(shí)監(jiān)控精度，推動(dòng)這一技術(shù)真正走向?qū)嵱谩?br/>

2013年，臉書(shū)（Facebook）的Yaniv Taigman等人提出了DeepFace算法，該算法基于檢測(cè)點(diǎn)實(shí)現(xiàn)人臉檢測(cè)，通過(guò)對(duì)檢測(cè)后的圖片進(jìn)行二維裁剪，將人臉部分裁剪出來(lái)，然后轉(zhuǎn)換為3D模型，利用CNN模型對(duì)3D模型進(jìn)行特征提取、歸一和分類完成人臉識(shí)別。DeepFace算法是人臉識(shí)別的奠基之作，直接影響了后續(xù)的DeepID和FaceNet等算法。

同年，香港中文大學(xué)的湯曉鷗教授及其團(tuán)隊(duì)提出了DeepID算法，并憑借該算法參加2014年ImageNet大規(guī)模物體檢測(cè)任務(wù)比賽獲得第二名優(yōu)異成績(jī)。隨后團(tuán)隊(duì)對(duì)DeepID算法進(jìn)行改進(jìn)提出DeepID2算法。DeepID2采用深度學(xué)習(xí)的方法來(lái)提取人臉高級(jí)特征，其采用的CNN網(wǎng)絡(luò)結(jié)構(gòu)共為10層，包括輸入層、4個(gè)卷積層、3個(gè)池化層、1個(gè)DeepID層和1個(gè)Softmax層；在提取特征后，使用了Joint Bayesian和Neural Network兩種方法進(jìn)行區(qū)人臉比對(duì)，最終得出識(shí)別結(jié)果。

同年，谷歌的Christian Szegedy等人提出了Inception網(wǎng)絡(luò)結(jié)構(gòu)，該結(jié)構(gòu)構(gòu)造了一種“基礎(chǔ)神經(jīng)元”結(jié)構(gòu)，來(lái)搭建一個(gè)稀疏性、高計(jì)算性能的網(wǎng)絡(luò)結(jié)構(gòu)，將CNN中常用的卷積（1x1，3x3，5x5）、池化操作（3x3）堆疊在一起（卷積、池化后的尺寸相同，將通道相加），一方面增加了網(wǎng)絡(luò)的寬度，另一方面也增加了網(wǎng)絡(luò)對(duì)尺度的適應(yīng)性。谷歌基于Inception搭建了GoogleNet。GoogleNet憑借其優(yōu)秀的表現(xiàn)，得到了很多研究人員的學(xué)習(xí)和使用。隨后，谷歌的Philbin James William等人又提出了FaceNet,與其他的深度學(xué)習(xí)方法在人臉上的應(yīng)用不同，F(xiàn)aceNet并沒(méi)有用傳統(tǒng)的softmax的方式去進(jìn)行分類學(xué)習(xí)，然后抽取其中某一層作為特征，而是直接進(jìn)行端對(duì)端學(xué)習(xí)一種從圖像到歐式空間的編碼方法，然后基于這個(gè)編碼再做人臉識(shí)別、人臉驗(yàn)證和人臉聚類等；將圖像輸入卷積神經(jīng)網(wǎng)絡(luò)去掉sofmax后的結(jié)構(gòu)，經(jīng)過(guò)L2的歸一化，然后得到特征表示，基于這個(gè)特征表示計(jì)算三元組損失，其可使用兩種卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)，第一種是Zeiler&Fergus架構(gòu)，22層，第二種是GoogleNet式的Inception模型。在LFW上，使用了兩種模式：直接取LFW圖片的中間部分進(jìn)行訓(xùn)練，效果98.87左右；使用額外的人臉對(duì)齊工具，效果99.63左右，超過(guò)DeepID。

2014年至2016年期間，GoogleNet團(tuán)隊(duì)對(duì)GoogleNet進(jìn)行了進(jìn)一步的發(fā)掘改進(jìn)，研發(fā)出了Inception v2，Inception v3和Inception v4。最終基于Inception v4提出了inception-ResNet-v2。專利（申請(qǐng)?zhí)枺篣S15395530）披露了將nxn的卷積通過(guò)1xn卷積后接nx1卷積來(lái)替代以加速計(jì)算，又可以將1個(gè)卷積拆成2個(gè)卷積，使得網(wǎng)絡(luò)深度進(jìn)一步增加，增加了網(wǎng)絡(luò)的非線性；或者使用了兩個(gè)并行化的模塊（卷積、池化并行執(zhí)行，再進(jìn)行合并）來(lái)降低計(jì)算量，以及將ResNet與Inception 結(jié)合。

同在2016年，谷歌的Barret ZOPH等提出了NasNet，并以此提交了專利申請(qǐng)（申請(qǐng)?zhí)枺篣S62414300）。這個(gè)模型并非是人為設(shè)計(jì)出來(lái)的，而是通過(guò)谷歌很早之前推出的AutoML自動(dòng)訓(xùn)練出來(lái)的。該項(xiàng)目目的是實(shí)現(xiàn)“自動(dòng)化的機(jī)器學(xué)習(xí)”，即訓(xùn)練機(jī)器學(xué)習(xí)的軟件來(lái)打造機(jī)器學(xué)習(xí)的軟件，自行開(kāi)發(fā)新系統(tǒng)的代碼層，它也是一種神經(jīng)架構(gòu)搜索技術(shù)(Neural Architecture Search technology)。其模型就是基于AutoML首先在CIFAR-10這種數(shù)據(jù)集上進(jìn)行神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索，以便AutoML找到最佳層并靈活進(jìn)行多次堆疊來(lái)創(chuàng)建最終網(wǎng)絡(luò)，并將學(xué)到的最好架構(gòu)轉(zhuǎn)移到 ImageNet 圖像分類和COCO對(duì)象檢測(cè)中，其在圖像分類任務(wù)中表現(xiàn)極為優(yōu)秀。

為了更好地適應(yīng)移動(dòng)端平臺(tái)，2017年，谷歌的Howard Andrew Gerald等推出了MobileNet。該技術(shù)使用了一種稱之為deep-wise的卷積方式來(lái)替代原有的傳統(tǒng)3D卷積，減少了卷積核的冗余表達(dá)，在計(jì)算量和參數(shù)數(shù)量明顯下降之后，卷積網(wǎng)絡(luò)可以應(yīng)用在更多的移動(dòng)端平臺(tái)。其他創(chuàng)新主體也圍繞移動(dòng)端應(yīng)用進(jìn)行大量技術(shù)創(chuàng)新，如通過(guò)神經(jīng)網(wǎng)絡(luò)模型的壓縮、大型網(wǎng)絡(luò)的特性遷移至小型網(wǎng)絡(luò)等。

02、賦能醫(yī)療影像

傳統(tǒng)的醫(yī)學(xué)影像依賴于醫(yī)師根據(jù)影像提供的信息進(jìn)行診斷,而計(jì)算機(jī)視覺(jué)技術(shù)為醫(yī)療影像帶來(lái)了新機(jī)會(huì)。自2006年，全球涉及醫(yī)療影像的計(jì)算機(jī)視覺(jué)相關(guān)專利近2000件。

計(jì)算機(jī)視覺(jué)技術(shù)專利分析

醫(yī)療影像的計(jì)算機(jī)視覺(jué)技術(shù)可以分為前期的圖像獲取，中期的圖像處理，以及后期的圖像診斷。圖像獲取進(jìn)一步細(xì)分為圖像構(gòu)建、圖像生成、目標(biāo)跟蹤，圖像處理包括圖像增強(qiáng)、圖像修復(fù)、圖像分割，圖像診斷分為圖像匹配、圖像構(gòu)建、圖像分類。無(wú)論從專利布局?jǐn)?shù)量還是布局質(zhì)量，西門子、通用電氣和飛利浦是該領(lǐng)域最重要的專利申請(qǐng)主體。三家企業(yè)在醫(yī)療圖像構(gòu)建、醫(yī)療圖像生成、醫(yī)療圖像增強(qiáng)和醫(yī)療圖像修復(fù)等細(xì)分技術(shù)均進(jìn)行了大量的專利布局，上述專利技術(shù)主要關(guān)注如何通過(guò)計(jì)算機(jī)視覺(jué)技術(shù)更高效地分析處理醫(yī)療數(shù)據(jù)，提升圖像檢測(cè)設(shè)備的性能，使其能獲取更加準(zhǔn)確、更加豐富的信息。

03、革新自動(dòng)駕駛

除了智能安防、醫(yī)療影像，視覺(jué)技術(shù)在自動(dòng)駕駛方面的應(yīng)用越來(lái)越受到眾多科技型企業(yè)、傳感器企業(yè)、汽車企業(yè)的重視。自動(dòng)駕駛的圖像視覺(jué)處理領(lǐng)域，Mobileye公司具有絕對(duì)的技術(shù)優(yōu)勢(shì)和市場(chǎng)優(yōu)勢(shì),Mobileye也一次又一次地利用技術(shù)的革新推動(dòng)著產(chǎn)業(yè)的發(fā)展。

2006年，深度學(xué)習(xí)算法剛提出不久，Mobileye就嘗試?yán)蒙疃葘W(xué)習(xí)算法對(duì)車燈進(jìn)行了識(shí)別，并利用車燈信息對(duì)車輛進(jìn)行識(shí)別導(dǎo)航。與此同時(shí)，福特提出利用人工智能技術(shù)修復(fù)低分辨率的圖像，使得汽車在夜間也能獲得更加清晰的圖像。早稻田大學(xué)嘗試將視覺(jué)系統(tǒng)和激光點(diǎn)云相融合，并融入人工智能技術(shù)。松下提出了專門處理環(huán)視視覺(jué)的處理器架構(gòu)，其布局可謂十分超前。因?yàn)橹钡讲痪们?，Mobileye推出新的視覺(jué)輔助駕駛系統(tǒng)才開(kāi)始采用多攝像頭的環(huán)視技術(shù)。Mobileye也在硬件系統(tǒng)上進(jìn)行了嘗試，如對(duì)片上系統(tǒng)的中斷技術(shù)進(jìn)行了研究。在這一階段，由于技術(shù)的不成熟，車輛控制技術(shù)所出現(xiàn)的關(guān)鍵技術(shù)較少。

計(jì)算機(jī)視覺(jué)技術(shù)專利分析

2013年以后，人工智能在計(jì)算機(jī)視覺(jué)方面的技術(shù)發(fā)展得越來(lái)越成熟，大量的關(guān)鍵性技術(shù)涌現(xiàn)出來(lái)。比如Mobileye采用了人工智能識(shí)別算法，識(shí)別道路輪廓。百度也利用人工智能算法識(shí)別車道線。這些都對(duì)車輛行駛路徑的規(guī)劃提供了技術(shù)保障。福特、蘋(píng)果等也在算法領(lǐng)域進(jìn)行了各種探索。

在硬件設(shè)備領(lǐng)域，同樣出現(xiàn)了一批代表性技術(shù)。隨著傳感技術(shù)和算法的發(fā)展，智能網(wǎng)聯(lián)汽車獲得的數(shù)據(jù)越來(lái)越多，而車輛的操控具備及時(shí)性，這就要求處理器能在短時(shí)間內(nèi)處理大量的數(shù)據(jù)。

Mobileye在硬件系統(tǒng)方面做出了大量的嘗試，研發(fā)了多核多線程處理設(shè)備。從產(chǎn)品上來(lái)看，Mobileye也一直自主設(shè)計(jì)芯片，其擁有多代EyeQ芯片，芯片和算法的融合設(shè)計(jì)使得其計(jì)算能力得到了進(jìn)一步提升。其他的創(chuàng)新主體，比如法雷奧、東芝也在硬件設(shè)備的改造上進(jìn)行了嘗試。

國(guó)家知識(shí)產(chǎn)權(quán)局專利分析普及推廣項(xiàng)目人工智能關(guān)鍵技術(shù)課題組

來(lái)源：國(guó)家知識(shí)產(chǎn)權(quán)局微信

編輯：IPRdaily王穎校對(duì)：IPRdaily縱橫君

推薦閱讀（點(diǎn)擊圖文，閱讀全文）

官宣！2019全球知識(shí)產(chǎn)權(quán)生態(tài)大會(huì)（GIPC）即將來(lái)襲！

官宣！首屆“全球科技創(chuàng)新與知識(shí)產(chǎn)權(quán)總裁研修班”招生簡(jiǎn)章

“投稿”請(qǐng)投郵箱“iprdaily@163.com”

計(jì)算機(jī)視覺(jué)技術(shù)專利分析

「關(guān)于IPRdaily」

IPRdaily成立于2014年，是全球影響力的知識(shí)產(chǎn)權(quán)媒體+產(chǎn)業(yè)服務(wù)平臺(tái)，致力于連接全球知識(shí)產(chǎn)權(quán)人，用戶匯聚了中國(guó)、美國(guó)、德國(guó)、俄羅斯、以色列、澳大利亞、新加坡、日本、韓國(guó)等15個(gè)國(guó)家和地區(qū)的高科技公司、成長(zhǎng)型科技企業(yè)IP高管、研發(fā)人員、法務(wù)、政府機(jī)構(gòu)、律所、事務(wù)所、科研院校等全球近50多萬(wàn)產(chǎn)業(yè)用戶（國(guó)內(nèi)25萬(wàn)+海外30萬(wàn)）；同時(shí)擁有近百萬(wàn)條高質(zhì)量的技術(shù)資源+專利資源，通過(guò)媒體構(gòu)建全球知識(shí)產(chǎn)權(quán)資產(chǎn)信息第一入口。2016年獲啟賦資本領(lǐng)投和天使匯跟投的Pre-A輪融資。

（英文官網(wǎng)：iprdaily.com 中文官網(wǎng)：iprdaily.cn）

本文來(lái)自國(guó)家知識(shí)產(chǎn)權(quán)局微信并經(jīng)IPRdaily.cn中文網(wǎng)編輯。轉(zhuǎn)載此文章須經(jīng)權(quán)利人同意，并附上出處與作者信息。文章不代表IPRdaily.cn立場(chǎng)，如若轉(zhuǎn)載，請(qǐng)注明出處：“http://m.jupyterflow.com/”