#本文僅代表作者觀點,不代表IPRdaily立場#
來源:IPRdaily中文網(wǎng)(iprdaily.cn)
原標(biāo)題:人工智能產(chǎn)業(yè)中不可忽略的技術(shù)領(lǐng)域之NLP
據(jù)國家工業(yè)信息安全發(fā)展研究中心知識產(chǎn)權(quán)所(工信部電子知識產(chǎn)權(quán)中心)發(fā)布的《2020人工智能中國專利技術(shù)分析報告》顯示,截止到2020年10月底,我國自然語言處理技術(shù)領(lǐng)域?qū)@灿?8137件,2019年專利申請數(shù)量為11342件,是2000年專利申請量的118倍,占人工智能年度專利總申請量的5.65%。2020年度(截止到2020年10月底)自然語言處理技術(shù)領(lǐng)域?qū)@暾埩繛?910件。自2015年以來,自然語言專利技術(shù)申請量增長速度明顯加快,說明自然語言專利技術(shù)專利布局正處于活躍時期,是創(chuàng)新主體關(guān)注的重點。
“我們可以期待,總有一天機(jī)器會同人在一切的智能領(lǐng)域里競爭起來。但是,以哪一點作為競爭的出發(fā)點呢?這是一個很難決定的問題。許多人以為可以把下棋之類的極為抽象的活動作為最好的出發(fā)點,不過,我更傾向于支持另一種主張,這種主張認(rèn)為,最好的出發(fā)點是制造出一種具有智能的、可用錢買到的機(jī)器,然后,教這種機(jī)器理解英語并且說英語。這個過程可以仿效小孩子說話的那種辦法來進(jìn)行?!?/p>
- A. M. Turing,Computing Machinery and Illigence,Mind Vol.59,1950.
自然語言處理( Natural Language Processing)作為人工智能三大關(guān)鍵技術(shù)之一,從20世紀(jì)40年代算起,已經(jīng)有70多年的歷史了,隨著信息網(wǎng)絡(luò)時代的到來,已經(jīng)成為現(xiàn)代語言學(xué)中一個頗為引人注目的學(xué)科,并且已經(jīng)廣泛應(yīng)用于情感分析、問答系統(tǒng)、自動摘要、機(jī)器翻譯、語音識別、聊天機(jī)器人、市場預(yù)測、文本分類、拼寫檢查等領(lǐng)域。
那么,究竟什么是自然語言處理呢?
自然語言處理是以語言為對象,利用計算機(jī)技術(shù)來分析、理解和處理自然語言的一門學(xué)科,即把計算機(jī)作為語言研究的強(qiáng)大工具,在計算機(jī)的支持下對語言信息進(jìn)行定量化的研究,并提供可供人與計算機(jī)之間能共同使用的語言描寫。
自然語言處理為什么重要?
比爾蓋茨曾說“語言理解是人工智能領(lǐng)域皇冠上的明珠”,自然語言處理有助于打破人與機(jī)器之間的障礙,改善人機(jī)交流的效率和生產(chǎn)力。在人工智能出現(xiàn)之前,機(jī)器只能處理結(jié)構(gòu)化的數(shù)據(jù),例如Excel里的數(shù)據(jù);但是網(wǎng)絡(luò)中大部分的數(shù)據(jù)都是非結(jié)構(gòu)化的,例如:文章、圖片、音頻、視頻等,在非結(jié)構(gòu)數(shù)據(jù)中,文本的數(shù)量是最多的,雖然沒有圖片和視頻占用的空間大,但是文本的信息量是最大的,為了能夠分析和利用這些文本信息,我們就需要利用NLP技術(shù),讓機(jī)器理解這些文本信息,并加以利用。自然語言處理就是在機(jī)器語言和人類語言之間溝通的橋梁,以實現(xiàn)人機(jī)交流的目的。
圖1 圖片來源:公眾號:easyai-tech
2020年的自然語言處理技術(shù)專利發(fā)展現(xiàn)狀
據(jù)國家工業(yè)信息安全發(fā)展研究中心知識產(chǎn)權(quán)所(工信部電子知識產(chǎn)權(quán)中心)發(fā)布的《2020人工智能中國專利技術(shù)分析報告》(以下簡稱“報告”)顯示,截止到2020年10月底,我國自然語言處理技術(shù)領(lǐng)域?qū)@灿?8137件,2019年專利申請數(shù)量為11342件,是2000年專利申請量的118倍,占人工智能年度專利總申請量的5.65%。2020年度(截止到2020年10月底)自然語言處理技術(shù)領(lǐng)域?qū)@暾埩繛?910件。自2015年以來,自然語言專利技術(shù)申請量增長速度明顯加快,說明自然語言專利技術(shù)專利布局正處于活躍時期,是創(chuàng)新主體關(guān)注的重點。
圖2我國人工智能自然語言處理領(lǐng)域?qū)@暾埩磕甓茸兓厔?/span>
(受公開滯后影響,2020年專利數(shù)據(jù)公開不完整,統(tǒng)計數(shù)據(jù)截止至2020年10月底)
自然語言處理基礎(chǔ)技術(shù)包括知識圖譜、詞法分析、句法分析、語義分析和語言模型,基于對全球?qū)@暾垜B(tài)勢的檢索,如下圖所示,知識圖譜專利申請量占比最高,為26%,其次為詞法分析、句法分析和語言模型,占比為19%,語義分析的申請量占比最低,為17%。(數(shù)據(jù)來源:《產(chǎn)業(yè)專利分析報告-人工智能關(guān)鍵技術(shù)(第68冊)》)
圖3 全球自然語言處理基礎(chǔ)技術(shù)各技術(shù)分支占比分析
數(shù)據(jù)來源:《產(chǎn)業(yè)專利分析報告-人工智能關(guān)鍵技術(shù)(第68冊)》
針對知識圖譜技術(shù),筆者在國家知識產(chǎn)權(quán)局專利檢索及分析網(wǎng)站進(jìn)行了檢索,如下圖所示的檢索結(jié)果顯示,在知識圖譜技術(shù)領(lǐng)域,北京百度網(wǎng)訊科技有限公司、平安科技(深圳)有限公司、騰訊科技(深圳)有限公司、北京明略軟件系統(tǒng)有限公司以及珠海格力電器股份有限公司分別排名前五。其中,百度網(wǎng)訊以392件專利量排名第一,平安科技以187件專利量排名第二,騰訊科技以151件專利量排名第三,明略科技以83件專利量排名第四,珠海格力以81件專利量排名第五。
圖4
針對詞法分析技術(shù),筆者在國家知識產(chǎn)權(quán)局專利檢索及分析網(wǎng)站進(jìn)行了檢索,如下圖所示的檢索結(jié)果顯示,在詞法分析技術(shù)領(lǐng)域,北京郵電大學(xué)、騰訊科技(深圳)有限公司、北京航空航天大學(xué)、中興通訊股份有限公司、華為技術(shù)有限公司分別排名前五。其中,北京郵電大學(xué)以57件專利量排名第一,騰訊科技以33件專利量排名第二,北京航空航天大學(xué)以21件專利量排名第三,中興通訊股份有限公司、華為技術(shù)有限公司以20件專利量并列第四。
圖5
針對句法分析技術(shù),筆者在國家知識產(chǎn)權(quán)局專利檢索及分析網(wǎng)站進(jìn)行了檢索,如下圖所示的檢索結(jié)果顯示,在句法分析技術(shù)領(lǐng)域,蘇州大學(xué)、北京百度網(wǎng)訊科技有限公司、百度在線網(wǎng)絡(luò)技術(shù)(北京)有限公司 、昆明理工大學(xué)、阿里巴巴集團(tuán)控股有限公司、騰訊科技(深圳)有限公司、中國科學(xué)院自動化研究所排名前五。其中,蘇州大學(xué)以37件專利量排名第一,百度網(wǎng)訊以31件專利量排名第二,百度在線、昆明理工大學(xué)以28件專利量并列第三,阿里巴巴集團(tuán)控股、騰訊科技、中國科學(xué)院自動化研究所以23件專利量并列排名第五。
圖6
針對語義分析技術(shù),筆者在國家知識產(chǎn)權(quán)局專利檢索及分析網(wǎng)站進(jìn)行了檢索,如下圖所示的檢索結(jié)果顯示,在語義分析技術(shù)領(lǐng)域,百度在線網(wǎng)絡(luò)技術(shù)(北京)有限公司 、騰訊科技(深圳)有限公司、北京百度網(wǎng)訊科技有限公司、阿里巴巴集團(tuán)控股有限公司、平安科技(深圳)有限公司分別排名前五。其中,百度在線以198件專利量排名第一,騰訊科技以163件專利量排名第二,百度網(wǎng)訊以127件專利量排名第三,阿里巴巴集團(tuán)控股以101件專利量排名第四,平安科技以85件專利量排名第五。
圖7
針對語言模型技術(shù),筆者在國家知識產(chǎn)權(quán)局專利檢索及分析網(wǎng)站進(jìn)行了檢索,如下圖所示的檢索結(jié)果顯示,在語言模型技術(shù)領(lǐng)域,北京百度網(wǎng)訊科技有限公司、騰訊科技(深圳)有限公司、平安科技(深圳)有限公司、百度在線網(wǎng)絡(luò)技術(shù)(北京)有限公司 、微軟公司分別排名前五。其中,百度網(wǎng)訊以169件專利量排名第一,騰訊科技以148件專利量排名第二,平安科技以121件專利量排名第三,百度在線以114件專利量排名第四,微軟公司以110件專利量排名第五。
圖8
根據(jù)自然語言處理技術(shù)的專利檢索情況,如下圖所示,人工智能、自然語言處理、神經(jīng)網(wǎng)絡(luò)、機(jī)器學(xué)習(xí)、自然語言等關(guān)鍵詞成為自然語言處理技術(shù)相關(guān)專利中的創(chuàng)新詞云。
圖9 :自然語言處理技術(shù)相關(guān)專利中的創(chuàng)新詞云
使用工具:智慧芽專利數(shù)據(jù)庫,智慧芽英策
從綜合水平來看,專注于自然語言處理的公司相當(dāng)多,根據(jù)2019《互聯(lián)網(wǎng)周刊》&eNet研究院選擇排行,國內(nèi)自然語言處理領(lǐng)域的代表性企業(yè)如下圖所示,包括被稱為人工智能領(lǐng)域“黃埔軍?!钡奈④泚喼扪芯吭?,專注于輸入法的搜狗,專業(yè)從事語音研究的科大訊飛、云知聲、思必馳、捷通華聲、出門問問等企業(yè),也包括深入大數(shù)據(jù)挖掘的達(dá)觀數(shù)據(jù)、明略科技等企業(yè)。
圖10
展望未來
隨著互聯(lián)網(wǎng)的普及和海量數(shù)據(jù)和信息的涌現(xiàn),自然語言處理作為人工智能的核心技術(shù),在人們的工作、學(xué)習(xí)、生活中扮演著越來越重要的角色,并將在社會發(fā)展和科技進(jìn)步的過程中發(fā)揮越來越重要的作用;一場人機(jī)關(guān)系變革正在進(jìn)行中,自然語言處理已經(jīng)迎來了最好的發(fā)展時代,旨在讓計算機(jī)真正理解我們的自然語言處理技術(shù),正在把人工智能推向一個新的高度—能理解、會思考的認(rèn)知智能,這讓我們能夠?qū)ξ磥碛懈蟮南胂罂臻g。
那么NLP技術(shù)在實際工作中是如何在不同領(lǐng)域發(fā)揮其功用呢?筆者咨詢了明略科技集團(tuán)信息檢索實驗室主任梁吉光博士,梁吉光博士表示:
“關(guān)于NLP的落地,不同于圖像識別、語音認(rèn)識能感知智能的落地,NLP屬于認(rèn)知智能,落地門檻稍高。NLP的應(yīng)用主要有兩種:通用型技術(shù)應(yīng)用和領(lǐng)域型技術(shù)應(yīng)用。通用型技術(shù)應(yīng)用主要包括語法分析、信息檢索、文本分類、情感分析、人機(jī)對話等任務(wù),領(lǐng)域性技術(shù)應(yīng)用則與應(yīng)用場景緊密相關(guān),如安全領(lǐng)域的輿情監(jiān)控、金融領(lǐng)域的智能風(fēng)控、營銷領(lǐng)域的智能營銷、智能家居領(lǐng)域的智能音箱等?!?/p>
目前NLP技術(shù)已經(jīng)有了一定發(fā)展,并逐步在安全、金融、互聯(lián)網(wǎng)、智能家居設(shè)備、電子產(chǎn)品等領(lǐng)域開始落地應(yīng)用,那么國內(nèi)NLP領(lǐng)域的發(fā)展情況究竟如何,已經(jīng)具備了哪些優(yōu)勢?未來NLP技術(shù)發(fā)展又會面對哪些技術(shù)挑戰(zhàn)呢?針對這些問題,梁吉光博士回復(fù)說:
“國內(nèi)自然語言處理研究一直走在國際前列水平,總體來講位居世界第二,僅次美國。從大環(huán)境角度,國內(nèi)自然語言處理技術(shù)的飛速發(fā)展得益于中國四十年改革開放,為技術(shù)與國際接軌提供了溫床。人工智能落地包括四要素:場景、數(shù)據(jù)、算法、算力。同樣,自然語言處理技術(shù)的發(fā)展也離不開這四大要素。工業(yè)界從不缺場景,缺的是能適用于場景的技術(shù)。在信息爆炸時代,數(shù)據(jù)越來越多,各種訓(xùn)練集測試集涌現(xiàn);算法越來越復(fù)雜、越來越先進(jìn),尤其以深度神經(jīng)網(wǎng)絡(luò)為代表的的深度學(xué)習(xí)架構(gòu),預(yù)訓(xùn)練模型更是將自然語言處理推向了新的范式;計算能力也越來越高,提供了大規(guī)模計算的可能性,從這一角度,數(shù)據(jù)“大”、算法“優(yōu)”,算力“快”是推動自然語言處理發(fā)展的直接原因?!?/p>
自然語言處理,讓人機(jī)交互不再遙遠(yuǎn);深度學(xué)習(xí)(DL),讓語言解析不再是智能系統(tǒng)的瓶頸?;谏疃葘W(xué)習(xí)的NLP技術(shù)已經(jīng)成為時下最主流的研究方法,并在在NLP領(lǐng)域的研究中取得一個又一個突破。DL最早突破的是語言模型,解決了傳統(tǒng)語言模型數(shù)據(jù)稀疏的問題。隨后,以CNN、RNN、LSTM為代表的深度神經(jīng)網(wǎng)絡(luò)模型對自然語言詞序列的特征提取發(fā)起了進(jìn)階。再到當(dāng)下“預(yù)訓(xùn)練+微調(diào)”這一NLP新范式更是橫掃整個領(lǐng)域,尤其以GPT、BERT模型為優(yōu)秀代表頻頻刷新SOTA。這一新范式結(jié)合下游任務(wù),將NLP推向了新的研究豐碑。
對于未來NLP技術(shù)發(fā)展將會面對的技術(shù)挑戰(zhàn)方面,梁博繼續(xù)補(bǔ)充道:
(1)“大力出奇跡”有瓶頸
當(dāng)下基于深度學(xué)習(xí)方法的NLP技術(shù)取得了卓越的效果,但這類方法基于“大”數(shù)據(jù)、“大”模型,數(shù)據(jù)動則TB量級,模型參數(shù)更是達(dá)到千億級別,著實卷,沒有最大只有更大。此外,此類算力多不可復(fù)現(xiàn),且局限于財力雄厚玩家。卷到何時算了?卷不動的時候,或者大力已不能解決問題的時候,需要考慮技術(shù)突破方向。
(2)不可解釋性
自深度學(xué)習(xí)模型席卷NLP領(lǐng)域以來,其不可解釋性一直是研究者的關(guān)注點之一。這種不可解釋性也注定無法將模型很好地應(yīng)用到依賴于過程解釋結(jié)果的領(lǐng)域,如法學(xué)、醫(yī)療、金融等領(lǐng)域。
從蒸汽時代到電氣時代,再到21世紀(jì)的信息時代,科技的發(fā)展推動著時代的進(jìn)步,而人工智能正成為推動人類進(jìn)入智能時代的決定性力量。當(dāng)今的宇宙中人類是孤獨的,但在不久的未來,我們期待自然語言處理這一關(guān)鍵技術(shù)可以讓冰冷機(jī)器變得有溫度,實現(xiàn)人機(jī)同行的美好愿景。
相關(guān)閱讀:
來源:IPRdaily中文網(wǎng)(iprdaily.cn)
編輯:IPRdaily王穎 校對:IPRdaily縱橫君
注:原文鏈接:人工智能產(chǎn)業(yè)中不可忽略的技術(shù)領(lǐng)域之NLP(點擊標(biāo)題查看原文)
青年有為!尋找2021年“40位40歲以下企業(yè)知識產(chǎn)權(quán)精英”活動正式啟動
報名!8天過實務(wù)-專代實務(wù)考試面授集訓(xùn)營【華南站】正式招生
「關(guān)于IPRdaily」
IPRdaily是具有全球影響力的知識產(chǎn)權(quán)媒體,致力于連接全球知識產(chǎn)權(quán)與科技創(chuàng)新人才。匯聚了來自于中國、美國、歐洲、俄羅斯、以色列、澳大利亞、新加坡、日本、韓國等15個國家和地區(qū)的高科技公司及成長型科技企業(yè)的管理者及科技研發(fā)或知識產(chǎn)權(quán)負(fù)責(zé)人,還有來自政府、律師及代理事務(wù)所、研發(fā)或服務(wù)機(jī)構(gòu)的全球近100萬用戶(國內(nèi)70余萬+海外近30萬),2019年全年全網(wǎng)頁面瀏覽量已經(jīng)突破過億次傳播。
(英文官網(wǎng):iprdaily.com 中文官網(wǎng):iprdaily.cn)
本文來自IPRdaily中文網(wǎng)(iprdaily.cn)并經(jīng)IPRdaily.cn中文網(wǎng)編輯。轉(zhuǎn)載此文章須經(jīng)權(quán)利人同意,并附上出處與作者信息。文章不代表IPRdaily.cn立場,如若轉(zhuǎn)載,請注明出處:“http://m.jupyterflow.com/
《知識產(chǎn)權(quán)界》(2021.09)
#晨報#美國ITC發(fā)布對墨盒及其組件的337部分終裁;零售食品商卻“跨行”申請注冊大量“三星堆”商標(biāo),撤回申請!被處罰款!
文章不錯,犒勞下辛苦的作者吧