返回
頂部
我們已發(fā)送驗證鏈接到您的郵箱,請查收并驗證
沒收到驗證郵件?請確認(rèn)郵箱是否正確或 重新發(fā)送郵件
確定
產(chǎn)業(yè)行業(yè)法院投稿訴訟招聘TOP100政策國際視野人物許可交易深度專題活動灣區(qū)IP動態(tài)職場商標(biāo)Oversea晨報董圖公司審查員說法官說首席知識產(chǎn)權(quán)官G40領(lǐng)袖機構(gòu)企業(yè)專利律所

人工智能產(chǎn)業(yè)中不可忽略的技術(shù)領(lǐng)域之NLP

產(chǎn)業(yè)
邊度4年前
人工智能產(chǎn)業(yè)中不可忽略的技術(shù)領(lǐng)域之NLP

人工智能產(chǎn)業(yè)中不可忽略的技術(shù)領(lǐng)域之NLP

#本文僅代表作者觀點,不代表IPRdaily立場#


來源:IPRdaily中文網(wǎng)(iprdaily.cn)

原標(biāo)題:人工智能產(chǎn)業(yè)中不可忽略的技術(shù)領(lǐng)域之NLP


據(jù)國家工業(yè)信息安全發(fā)展研究中心知識產(chǎn)權(quán)所(工信部電子知識產(chǎn)權(quán)中心)發(fā)布的《2020人工智能中國專利技術(shù)分析報告》顯示,截止到2020年10月底,我國自然語言處理技術(shù)領(lǐng)域?qū)@灿?8137件,2019年專利申請數(shù)量為11342件,是2000年專利申請量的118倍,占人工智能年度專利總申請量的5.65%。2020年度(截止到2020年10月底)自然語言處理技術(shù)領(lǐng)域?qū)@暾埩繛?910件。自2015年以來,自然語言專利技術(shù)申請量增長速度明顯加快,說明自然語言專利技術(shù)專利布局正處于活躍時期,是創(chuàng)新主體關(guān)注的重點。


“我們可以期待,總有一天機器會同人在一切的智能領(lǐng)域里競爭起來。但是,以哪一點作為競爭的出發(fā)點呢?這是一個很難決定的問題。許多人以為可以把下棋之類的極為抽象的活動作為最好的出發(fā)點,不過,我更傾向于支持另一種主張,這種主張認(rèn)為,最好的出發(fā)點是制造出一種具有智能的、可用錢買到的機器,然后,教這種機器理解英語并且說英語。這個過程可以仿效小孩子說話的那種辦法來進行?!?/p>


- A. M. Turing,Computing Machinery and Illigence,Mind Vol.59,1950.


自然語言處理( Natural Language Processing)作為人工智能三大關(guān)鍵技術(shù)之一,從20世紀(jì)40年代算起,已經(jīng)有70多年的歷史了,隨著信息網(wǎng)絡(luò)時代的到來,已經(jīng)成為現(xiàn)代語言學(xué)中一個頗為引人注目的學(xué)科,并且已經(jīng)廣泛應(yīng)用于情感分析、問答系統(tǒng)、自動摘要、機器翻譯、語音識別、聊天機器人、市場預(yù)測、文本分類、拼寫檢查等領(lǐng)域。


那么,究竟什么是自然語言處理呢?


自然語言處理是以語言為對象,利用計算機技術(shù)來分析、理解和處理自然語言的一門學(xué)科,即把計算機作為語言研究的強大工具,在計算機的支持下對語言信息進行定量化的研究,并提供可供人與計算機之間能共同使用的語言描寫。


自然語言處理為什么重要?


比爾蓋茨曾說“語言理解是人工智能領(lǐng)域皇冠上的明珠”,自然語言處理有助于打破人與機器之間的障礙,改善人機交流的效率和生產(chǎn)力。在人工智能出現(xiàn)之前,機器只能處理結(jié)構(gòu)化的數(shù)據(jù),例如Excel里的數(shù)據(jù);但是網(wǎng)絡(luò)中大部分的數(shù)據(jù)都是非結(jié)構(gòu)化的,例如:文章、圖片、音頻、視頻等,在非結(jié)構(gòu)數(shù)據(jù)中,文本的數(shù)量是最多的,雖然沒有圖片和視頻占用的空間大,但是文本的信息量是最大的,為了能夠分析和利用這些文本信息,我們就需要利用NLP技術(shù),讓機器理解這些文本信息,并加以利用。自然語言處理就是在機器語言和人類語言之間溝通的橋梁,以實現(xiàn)人機交流的目的。


人工智能產(chǎn)業(yè)中不可忽略的技術(shù)領(lǐng)域之NLP

圖1 圖片來源:公眾號:easyai-tech


2020年的自然語言處理技術(shù)專利發(fā)展現(xiàn)狀


據(jù)國家工業(yè)信息安全發(fā)展研究中心知識產(chǎn)權(quán)所(工信部電子知識產(chǎn)權(quán)中心)發(fā)布的《2020人工智能中國專利技術(shù)分析報告》(以下簡稱“報告”)顯示,截止到2020年10月底,我國自然語言處理技術(shù)領(lǐng)域?qū)@灿?8137件,2019年專利申請數(shù)量為11342件,是2000年專利申請量的118倍,占人工智能年度專利總申請量的5.65%。2020年度(截止到2020年10月底)自然語言處理技術(shù)領(lǐng)域?qū)@暾埩繛?910件。自2015年以來,自然語言專利技術(shù)申請量增長速度明顯加快,說明自然語言專利技術(shù)專利布局正處于活躍時期,是創(chuàng)新主體關(guān)注的重點。


人工智能產(chǎn)業(yè)中不可忽略的技術(shù)領(lǐng)域之NLP

圖2我國人工智能自然語言處理領(lǐng)域?qū)@暾埩磕甓茸兓厔?/span>

(受公開滯后影響,2020年專利數(shù)據(jù)公開不完整,統(tǒng)計數(shù)據(jù)截止至2020年10月底)


自然語言處理基礎(chǔ)技術(shù)包括知識圖譜、詞法分析、句法分析、語義分析和語言模型,基于對全球?qū)@暾垜B(tài)勢的檢索,如下圖所示,知識圖譜專利申請量占比最高,為26%,其次為詞法分析、句法分析和語言模型,占比為19%,語義分析的申請量占比最低,為17%。(數(shù)據(jù)來源:《產(chǎn)業(yè)專利分析報告-人工智能關(guān)鍵技術(shù)(第68冊)》)


人工智能產(chǎn)業(yè)中不可忽略的技術(shù)領(lǐng)域之NLP

圖3 全球自然語言處理基礎(chǔ)技術(shù)各技術(shù)分支占比分析


人工智能產(chǎn)業(yè)中不可忽略的技術(shù)領(lǐng)域之NLP

數(shù)據(jù)來源:《產(chǎn)業(yè)專利分析報告-人工智能關(guān)鍵技術(shù)(第68冊)》


針對知識圖譜技術(shù),筆者在國家知識產(chǎn)權(quán)局專利檢索及分析網(wǎng)站進行了檢索,如下圖所示的檢索結(jié)果顯示,在知識圖譜技術(shù)領(lǐng)域,北京百度網(wǎng)訊科技有限公司、平安科技(深圳)有限公司、騰訊科技(深圳)有限公司、北京明略軟件系統(tǒng)有限公司以及珠海格力電器股份有限公司分別排名前五。其中,百度網(wǎng)訊以392件專利量排名第一,平安科技以187件專利量排名第二,騰訊科技以151件專利量排名第三,明略科技以83件專利量排名第四,珠海格力以81件專利量排名第五。


人工智能產(chǎn)業(yè)中不可忽略的技術(shù)領(lǐng)域之NLP

圖4


針對詞法分析技術(shù),筆者在國家知識產(chǎn)權(quán)局專利檢索及分析網(wǎng)站進行了檢索,如下圖所示的檢索結(jié)果顯示,在詞法分析技術(shù)領(lǐng)域,北京郵電大學(xué)、騰訊科技(深圳)有限公司、北京航空航天大學(xué)、中興通訊股份有限公司、華為技術(shù)有限公司分別排名前五。其中,北京郵電大學(xué)以57件專利量排名第一,騰訊科技以33件專利量排名第二,北京航空航天大學(xué)以21件專利量排名第三,中興通訊股份有限公司、華為技術(shù)有限公司以20件專利量并列第四。


人工智能產(chǎn)業(yè)中不可忽略的技術(shù)領(lǐng)域之NLP

圖5


針對句法分析技術(shù),筆者在國家知識產(chǎn)權(quán)局專利檢索及分析網(wǎng)站進行了檢索,如下圖所示的檢索結(jié)果顯示,在句法分析技術(shù)領(lǐng)域,蘇州大學(xué)、北京百度網(wǎng)訊科技有限公司、百度在線網(wǎng)絡(luò)技術(shù)(北京)有限公司 、昆明理工大學(xué)、阿里巴巴集團控股有限公司、騰訊科技(深圳)有限公司、中國科學(xué)院自動化研究所排名前五。其中,蘇州大學(xué)以37件專利量排名第一,百度網(wǎng)訊以31件專利量排名第二,百度在線、昆明理工大學(xué)以28件專利量并列第三,阿里巴巴集團控股、騰訊科技、中國科學(xué)院自動化研究所以23件專利量并列排名第五。


人工智能產(chǎn)業(yè)中不可忽略的技術(shù)領(lǐng)域之NLP

圖6


針對語義分析技術(shù),筆者在國家知識產(chǎn)權(quán)局專利檢索及分析網(wǎng)站進行了檢索,如下圖所示的檢索結(jié)果顯示,在語義分析技術(shù)領(lǐng)域,百度在線網(wǎng)絡(luò)技術(shù)(北京)有限公司 、騰訊科技(深圳)有限公司、北京百度網(wǎng)訊科技有限公司、阿里巴巴集團控股有限公司、平安科技(深圳)有限公司分別排名前五。其中,百度在線以198件專利量排名第一,騰訊科技以163件專利量排名第二,百度網(wǎng)訊以127件專利量排名第三,阿里巴巴集團控股以101件專利量排名第四,平安科技以85件專利量排名第五。


人工智能產(chǎn)業(yè)中不可忽略的技術(shù)領(lǐng)域之NLP

圖7


針對語言模型技術(shù),筆者在國家知識產(chǎn)權(quán)局專利檢索及分析網(wǎng)站進行了檢索,如下圖所示的檢索結(jié)果顯示,在語言模型技術(shù)領(lǐng)域,北京百度網(wǎng)訊科技有限公司、騰訊科技(深圳)有限公司、平安科技(深圳)有限公司、百度在線網(wǎng)絡(luò)技術(shù)(北京)有限公司 、微軟公司分別排名前五。其中,百度網(wǎng)訊以169件專利量排名第一,騰訊科技以148件專利量排名第二,平安科技以121件專利量排名第三,百度在線以114件專利量排名第四,微軟公司以110件專利量排名第五。


人工智能產(chǎn)業(yè)中不可忽略的技術(shù)領(lǐng)域之NLP圖8


根據(jù)自然語言處理技術(shù)的專利檢索情況,如下圖所示,人工智能、自然語言處理、神經(jīng)網(wǎng)絡(luò)、機器學(xué)習(xí)、自然語言等關(guān)鍵詞成為自然語言處理技術(shù)相關(guān)專利中的創(chuàng)新詞云。


人工智能產(chǎn)業(yè)中不可忽略的技術(shù)領(lǐng)域之NLP

圖9 :自然語言處理技術(shù)相關(guān)專利中的創(chuàng)新詞云

使用工具:智慧芽專利數(shù)據(jù)庫,智慧芽英策


從綜合水平來看,專注于自然語言處理的公司相當(dāng)多,根據(jù)2019《互聯(lián)網(wǎng)周刊》&eNet研究院選擇排行,國內(nèi)自然語言處理領(lǐng)域的代表性企業(yè)如下圖所示,包括被稱為人工智能領(lǐng)域“黃埔軍?!钡奈④泚喼扪芯吭?,專注于輸入法的搜狗,專業(yè)從事語音研究的科大訊飛、云知聲、思必馳、捷通華聲、出門問問等企業(yè),也包括深入大數(shù)據(jù)挖掘的達觀數(shù)據(jù)、明略科技等企業(yè)。


人工智能產(chǎn)業(yè)中不可忽略的技術(shù)領(lǐng)域之NLP

圖10


展望未來


隨著互聯(lián)網(wǎng)的普及和海量數(shù)據(jù)和信息的涌現(xiàn),自然語言處理作為人工智能的核心技術(shù),在人們的工作、學(xué)習(xí)、生活中扮演著越來越重要的角色,并將在社會發(fā)展和科技進步的過程中發(fā)揮越來越重要的作用;一場人機關(guān)系變革正在進行中,自然語言處理已經(jīng)迎來了最好的發(fā)展時代,旨在讓計算機真正理解我們的自然語言處理技術(shù),正在把人工智能推向一個新的高度—能理解、會思考的認(rèn)知智能,這讓我們能夠?qū)ξ磥碛懈蟮南胂罂臻g。


那么NLP技術(shù)在實際工作中是如何在不同領(lǐng)域發(fā)揮其功用呢?筆者咨詢了明略科技集團信息檢索實驗室主任梁吉光博士,梁吉光博士表示:


“關(guān)于NLP的落地,不同于圖像識別、語音認(rèn)識能感知智能的落地,NLP屬于認(rèn)知智能,落地門檻稍高。NLP的應(yīng)用主要有兩種:通用型技術(shù)應(yīng)用和領(lǐng)域型技術(shù)應(yīng)用。通用型技術(shù)應(yīng)用主要包括語法分析、信息檢索、文本分類、情感分析、人機對話等任務(wù),領(lǐng)域性技術(shù)應(yīng)用則與應(yīng)用場景緊密相關(guān),如安全領(lǐng)域的輿情監(jiān)控、金融領(lǐng)域的智能風(fēng)控、營銷領(lǐng)域的智能營銷、智能家居領(lǐng)域的智能音箱等?!?/p>


目前NLP技術(shù)已經(jīng)有了一定發(fā)展,并逐步在安全、金融、互聯(lián)網(wǎng)、智能家居設(shè)備、電子產(chǎn)品等領(lǐng)域開始落地應(yīng)用,那么國內(nèi)NLP領(lǐng)域的發(fā)展情況究竟如何,已經(jīng)具備了哪些優(yōu)勢?未來NLP技術(shù)發(fā)展又會面對哪些技術(shù)挑戰(zhàn)呢?針對這些問題,梁吉光博士回復(fù)說:


“國內(nèi)自然語言處理研究一直走在國際前列水平,總體來講位居世界第二,僅次美國。從大環(huán)境角度,國內(nèi)自然語言處理技術(shù)的飛速發(fā)展得益于中國四十年改革開放,為技術(shù)與國際接軌提供了溫床。人工智能落地包括四要素:場景、數(shù)據(jù)、算法、算力。同樣,自然語言處理技術(shù)的發(fā)展也離不開這四大要素。工業(yè)界從不缺場景,缺的是能適用于場景的技術(shù)。在信息爆炸時代,數(shù)據(jù)越來越多,各種訓(xùn)練集測試集涌現(xiàn);算法越來越復(fù)雜、越來越先進,尤其以深度神經(jīng)網(wǎng)絡(luò)為代表的的深度學(xué)習(xí)架構(gòu),預(yù)訓(xùn)練模型更是將自然語言處理推向了新的范式;計算能力也越來越高,提供了大規(guī)模計算的可能性,從這一角度,數(shù)據(jù)“大”、算法“優(yōu)”,算力“快”是推動自然語言處理發(fā)展的直接原因?!?/p>


自然語言處理,讓人機交互不再遙遠;深度學(xué)習(xí)(DL),讓語言解析不再是智能系統(tǒng)的瓶頸?;谏疃葘W(xué)習(xí)的NLP技術(shù)已經(jīng)成為時下最主流的研究方法,并在在NLP領(lǐng)域的研究中取得一個又一個突破。DL最早突破的是語言模型,解決了傳統(tǒng)語言模型數(shù)據(jù)稀疏的問題。隨后,以CNN、RNN、LSTM為代表的深度神經(jīng)網(wǎng)絡(luò)模型對自然語言詞序列的特征提取發(fā)起了進階。再到當(dāng)下“預(yù)訓(xùn)練+微調(diào)”這一NLP新范式更是橫掃整個領(lǐng)域,尤其以GPT、BERT模型為優(yōu)秀代表頻頻刷新SOTA。這一新范式結(jié)合下游任務(wù),將NLP推向了新的研究豐碑。


對于未來NLP技術(shù)發(fā)展將會面對的技術(shù)挑戰(zhàn)方面,梁博繼續(xù)補充道:


(1)“大力出奇跡”有瓶頸


當(dāng)下基于深度學(xué)習(xí)方法的NLP技術(shù)取得了卓越的效果,但這類方法基于“大”數(shù)據(jù)、“大”模型,數(shù)據(jù)動則TB量級,模型參數(shù)更是達到千億級別,著實卷,沒有最大只有更大。此外,此類算力多不可復(fù)現(xiàn),且局限于財力雄厚玩家。卷到何時算了?卷不動的時候,或者大力已不能解決問題的時候,需要考慮技術(shù)突破方向。


(2)不可解釋性


自深度學(xué)習(xí)模型席卷NLP領(lǐng)域以來,其不可解釋性一直是研究者的關(guān)注點之一。這種不可解釋性也注定無法將模型很好地應(yīng)用到依賴于過程解釋結(jié)果的領(lǐng)域,如法學(xué)、醫(yī)療、金融等領(lǐng)域。


從蒸汽時代到電氣時代,再到21世紀(jì)的信息時代,科技的發(fā)展推動著時代的進步,而人工智能正成為推動人類進入智能時代的決定性力量。當(dāng)今的宇宙中人類是孤獨的,但在不久的未來,我們期待自然語言處理這一關(guān)鍵技術(shù)可以讓冰冷機器變得有溫度,實現(xiàn)人機同行的美好愿景。


相關(guān)閱讀:

人工智能產(chǎn)業(yè)中不可忽略的技術(shù)領(lǐng)域之知識圖譜


來源:IPRdaily中文網(wǎng)(iprdaily.cn)

編輯:IPRdaily王穎          校對:IPRdaily縱橫君


注:原文鏈接人工智能產(chǎn)業(yè)中不可忽略的技術(shù)領(lǐng)域之NLP(點擊標(biāo)題查看原文)


人工智能產(chǎn)業(yè)中不可忽略的技術(shù)領(lǐng)域之NLP

青年有為!尋找2021年“40位40歲以下企業(yè)知識產(chǎn)權(quán)精英”活動正式啟動


人工智能產(chǎn)業(yè)中不可忽略的技術(shù)領(lǐng)域之NLP

報名!2021年「涉外專利代理高級研修班【上海站】」來啦!


人工智能產(chǎn)業(yè)中不可忽略的技術(shù)領(lǐng)域之NLP

報名!8天過實務(wù)-專代實務(wù)考試面授集訓(xùn)營【華南站】正式招生


人工智能產(chǎn)業(yè)中不可忽略的技術(shù)領(lǐng)域之NLP

「關(guān)于IPRdaily」


IPRdaily是具有全球影響力的知識產(chǎn)權(quán)媒體,致力于連接全球知識產(chǎn)權(quán)與科技創(chuàng)新人才。匯聚了來自于中國、美國、歐洲、俄羅斯、以色列、澳大利亞、新加坡、日本、韓國等15個國家和地區(qū)的高科技公司及成長型科技企業(yè)的管理者及科技研發(fā)或知識產(chǎn)權(quán)負(fù)責(zé)人,還有來自政府、律師及代理事務(wù)所、研發(fā)或服務(wù)機構(gòu)的全球近100萬用戶(國內(nèi)70余萬+海外近30萬),2019年全年全網(wǎng)頁面瀏覽量已經(jīng)突破過億次傳播。


(英文官網(wǎng):iprdaily.com  中文官網(wǎng):iprdaily.cn) 


本文來IPRdaily中文網(wǎng)(iprdaily.cn)并經(jīng)IPRdaily.cn中文網(wǎng)編輯。轉(zhuǎn)載此文章須經(jīng)權(quán)利人同意,并附上出處與作者信息。文章不代表IPRdaily.cn立場,如若轉(zhuǎn)載,請注明出處:“http://m.jupyterflow.com/

邊度投稿作者
共發(fā)表文章1634
最近文章
關(guān)鍵詞
首席知識產(chǎn)權(quán)官 世界知識產(chǎn)權(quán)日 美國專利訴訟管理策略 大數(shù)據(jù) 軟件著作權(quán)登記 專利商標(biāo) 商標(biāo)注冊人 人工智能 版權(quán)登記代理 如何快速獲得美國專利授權(quán)? 材料科學(xué) 申請注冊商標(biāo) 軟件著作權(quán) 虛擬現(xiàn)實與增強現(xiàn)實 專利侵權(quán)糾紛行政處理 專利預(yù)警 知識產(chǎn)權(quán) 全球視野 中國商標(biāo) 版權(quán)保護中心 智能硬件 新材料 新一代信息技術(shù)產(chǎn)業(yè) 躲過商標(biāo)轉(zhuǎn)讓的陷阱 航空航天裝備 樂天 產(chǎn)業(yè) 海洋工程裝備及高技術(shù)船舶 著作權(quán) 電子版權(quán) 醫(yī)藥及高性能醫(yī)療器械 中國專利年報 游戲動漫 條例 國際專利 商標(biāo) 實用新型專利 專利費用 專利管理 出版管理條例 版權(quán)商標(biāo) 知識產(chǎn)權(quán)侵權(quán) 商標(biāo)審查協(xié)作中心 法律和政策 企業(yè)商標(biāo)布局 新商標(biāo)審查「不規(guī)范漢字」審理標(biāo)準(zhǔn) 專利機構(gòu)排名 商標(biāo)分類 專利檢索 申請商標(biāo)注冊 法規(guī) 行業(yè) 法律常識 設(shè)計專利 2016知識產(chǎn)權(quán)行業(yè)分析 發(fā)明專利申請 國家商標(biāo)總局 電影版權(quán) 專利申請 香港知識產(chǎn)權(quán) 國防知識產(chǎn)權(quán) 國際版權(quán)交易 十件 版權(quán) 顧問 版權(quán)登記 發(fā)明專利 亞洲知識產(chǎn)權(quán) 版權(quán)歸屬 商標(biāo)辦理 商標(biāo)申請 美國專利局 ip 共享單車 一帶一路商標(biāo) 融資 馳名商標(biāo)保護 知識產(chǎn)權(quán)工程師 授權(quán) 音樂的版權(quán) 專利 商標(biāo)數(shù)據(jù) 知識產(chǎn)權(quán)局 知識產(chǎn)權(quán)法 專利小白 商標(biāo)是什么 商標(biāo)注冊 知識產(chǎn)權(quán)網(wǎng) 中超 商標(biāo)審查 維權(quán) 律所 專利代理人 知識產(chǎn)權(quán)案例 專利運營 現(xiàn)代產(chǎn)業(yè)
本文來自于iprdaily,永久保存地址為http://m.jupyterflow.com/article_29049.html,發(fā)布時間為2021-09-09 09:24:46。

文章不錯,犒勞下辛苦的作者吧

    我也說兩句
    還可以輸入140個字
    我要評論
    回復(fù)
    還可以輸入 70 個字
    請選擇打賞金額