#本文僅代表作者觀點,不代表IPRdaily立場#
來源:IPRdaily中文網(wǎng)(iprdaily.cn)
原標題:人工智能產(chǎn)業(yè)中不可忽略的技術領域之NLP
據(jù)國家工業(yè)信息安全發(fā)展研究中心知識產(chǎn)權(quán)所(工信部電子知識產(chǎn)權(quán)中心)發(fā)布的《2020人工智能中國專利技術分析報告》顯示,截止到2020年10月底,我國自然語言處理技術領域?qū)@灿?8137件,2019年專利申請數(shù)量為11342件,是2000年專利申請量的118倍,占人工智能年度專利總申請量的5.65%。2020年度(截止到2020年10月底)自然語言處理技術領域?qū)@暾埩繛?910件。自2015年以來,自然語言專利技術申請量增長速度明顯加快,說明自然語言專利技術專利布局正處于活躍時期,是創(chuàng)新主體關注的重點。
“我們可以期待,總有一天機器會同人在一切的智能領域里競爭起來。但是,以哪一點作為競爭的出發(fā)點呢?這是一個很難決定的問題。許多人以為可以把下棋之類的極為抽象的活動作為最好的出發(fā)點,不過,我更傾向于支持另一種主張,這種主張認為,最好的出發(fā)點是制造出一種具有智能的、可用錢買到的機器,然后,教這種機器理解英語并且說英語。這個過程可以仿效小孩子說話的那種辦法來進行?!?/p>
- A. M. Turing,Computing Machinery and Illigence,Mind Vol.59,1950.
自然語言處理( Natural Language Processing)作為人工智能三大關鍵技術之一,從20世紀40年代算起,已經(jīng)有70多年的歷史了,隨著信息網(wǎng)絡時代的到來,已經(jīng)成為現(xiàn)代語言學中一個頗為引人注目的學科,并且已經(jīng)廣泛應用于情感分析、問答系統(tǒng)、自動摘要、機器翻譯、語音識別、聊天機器人、市場預測、文本分類、拼寫檢查等領域。
那么,究竟什么是自然語言處理呢?
自然語言處理是以語言為對象,利用計算機技術來分析、理解和處理自然語言的一門學科,即把計算機作為語言研究的強大工具,在計算機的支持下對語言信息進行定量化的研究,并提供可供人與計算機之間能共同使用的語言描寫。
自然語言處理為什么重要?
比爾蓋茨曾說“語言理解是人工智能領域皇冠上的明珠”,自然語言處理有助于打破人與機器之間的障礙,改善人機交流的效率和生產(chǎn)力。在人工智能出現(xiàn)之前,機器只能處理結(jié)構(gòu)化的數(shù)據(jù),例如Excel里的數(shù)據(jù);但是網(wǎng)絡中大部分的數(shù)據(jù)都是非結(jié)構(gòu)化的,例如:文章、圖片、音頻、視頻等,在非結(jié)構(gòu)數(shù)據(jù)中,文本的數(shù)量是最多的,雖然沒有圖片和視頻占用的空間大,但是文本的信息量是最大的,為了能夠分析和利用這些文本信息,我們就需要利用NLP技術,讓機器理解這些文本信息,并加以利用。自然語言處理就是在機器語言和人類語言之間溝通的橋梁,以實現(xiàn)人機交流的目的。
圖1 圖片來源:公眾號:easyai-tech
2020年的自然語言處理技術專利發(fā)展現(xiàn)狀
據(jù)國家工業(yè)信息安全發(fā)展研究中心知識產(chǎn)權(quán)所(工信部電子知識產(chǎn)權(quán)中心)發(fā)布的《2020人工智能中國專利技術分析報告》(以下簡稱“報告”)顯示,截止到2020年10月底,我國自然語言處理技術領域?qū)@灿?8137件,2019年專利申請數(shù)量為11342件,是2000年專利申請量的118倍,占人工智能年度專利總申請量的5.65%。2020年度(截止到2020年10月底)自然語言處理技術領域?qū)@暾埩繛?910件。自2015年以來,自然語言專利技術申請量增長速度明顯加快,說明自然語言專利技術專利布局正處于活躍時期,是創(chuàng)新主體關注的重點。
圖2我國人工智能自然語言處理領域?qū)@暾埩磕甓茸兓厔?/span>
(受公開滯后影響,2020年專利數(shù)據(jù)公開不完整,統(tǒng)計數(shù)據(jù)截止至2020年10月底)
自然語言處理基礎技術包括知識圖譜、詞法分析、句法分析、語義分析和語言模型,基于對全球?qū)@暾垜B(tài)勢的檢索,如下圖所示,知識圖譜專利申請量占比最高,為26%,其次為詞法分析、句法分析和語言模型,占比為19%,語義分析的申請量占比最低,為17%。(數(shù)據(jù)來源:《產(chǎn)業(yè)專利分析報告-人工智能關鍵技術(第68冊)》)
圖3 全球自然語言處理基礎技術各技術分支占比分析
數(shù)據(jù)來源:《產(chǎn)業(yè)專利分析報告-人工智能關鍵技術(第68冊)》
針對知識圖譜技術,筆者在國家知識產(chǎn)權(quán)局專利檢索及分析網(wǎng)站進行了檢索,如下圖所示的檢索結(jié)果顯示,在知識圖譜技術領域,北京百度網(wǎng)訊科技有限公司、平安科技(深圳)有限公司、騰訊科技(深圳)有限公司、北京明略軟件系統(tǒng)有限公司以及珠海格力電器股份有限公司分別排名前五。其中,百度網(wǎng)訊以392件專利量排名第一,平安科技以187件專利量排名第二,騰訊科技以151件專利量排名第三,明略科技以83件專利量排名第四,珠海格力以81件專利量排名第五。
圖4
針對詞法分析技術,筆者在國家知識產(chǎn)權(quán)局專利檢索及分析網(wǎng)站進行了檢索,如下圖所示的檢索結(jié)果顯示,在詞法分析技術領域,北京郵電大學、騰訊科技(深圳)有限公司、北京航空航天大學、中興通訊股份有限公司、華為技術有限公司分別排名前五。其中,北京郵電大學以57件專利量排名第一,騰訊科技以33件專利量排名第二,北京航空航天大學以21件專利量排名第三,中興通訊股份有限公司、華為技術有限公司以20件專利量并列第四。
圖5
針對句法分析技術,筆者在國家知識產(chǎn)權(quán)局專利檢索及分析網(wǎng)站進行了檢索,如下圖所示的檢索結(jié)果顯示,在句法分析技術領域,蘇州大學、北京百度網(wǎng)訊科技有限公司、百度在線網(wǎng)絡技術(北京)有限公司 、昆明理工大學、阿里巴巴集團控股有限公司、騰訊科技(深圳)有限公司、中國科學院自動化研究所排名前五。其中,蘇州大學以37件專利量排名第一,百度網(wǎng)訊以31件專利量排名第二,百度在線、昆明理工大學以28件專利量并列第三,阿里巴巴集團控股、騰訊科技、中國科學院自動化研究所以23件專利量并列排名第五。
圖6
針對語義分析技術,筆者在國家知識產(chǎn)權(quán)局專利檢索及分析網(wǎng)站進行了檢索,如下圖所示的檢索結(jié)果顯示,在語義分析技術領域,百度在線網(wǎng)絡技術(北京)有限公司 、騰訊科技(深圳)有限公司、北京百度網(wǎng)訊科技有限公司、阿里巴巴集團控股有限公司、平安科技(深圳)有限公司分別排名前五。其中,百度在線以198件專利量排名第一,騰訊科技以163件專利量排名第二,百度網(wǎng)訊以127件專利量排名第三,阿里巴巴集團控股以101件專利量排名第四,平安科技以85件專利量排名第五。
圖7
針對語言模型技術,筆者在國家知識產(chǎn)權(quán)局專利檢索及分析網(wǎng)站進行了檢索,如下圖所示的檢索結(jié)果顯示,在語言模型技術領域,北京百度網(wǎng)訊科技有限公司、騰訊科技(深圳)有限公司、平安科技(深圳)有限公司、百度在線網(wǎng)絡技術(北京)有限公司 、微軟公司分別排名前五。其中,百度網(wǎng)訊以169件專利量排名第一,騰訊科技以148件專利量排名第二,平安科技以121件專利量排名第三,百度在線以114件專利量排名第四,微軟公司以110件專利量排名第五。
圖8
根據(jù)自然語言處理技術的專利檢索情況,如下圖所示,人工智能、自然語言處理、神經(jīng)網(wǎng)絡、機器學習、自然語言等關鍵詞成為自然語言處理技術相關專利中的創(chuàng)新詞云。
圖9 :自然語言處理技術相關專利中的創(chuàng)新詞云
使用工具:智慧芽專利數(shù)據(jù)庫,智慧芽英策
從綜合水平來看,專注于自然語言處理的公司相當多,根據(jù)2019《互聯(lián)網(wǎng)周刊》&eNet研究院選擇排行,國內(nèi)自然語言處理領域的代表性企業(yè)如下圖所示,包括被稱為人工智能領域“黃埔軍?!钡奈④泚喼扪芯吭?,專注于輸入法的搜狗,專業(yè)從事語音研究的科大訊飛、云知聲、思必馳、捷通華聲、出門問問等企業(yè),也包括深入大數(shù)據(jù)挖掘的達觀數(shù)據(jù)、明略科技等企業(yè)。
圖10
展望未來
隨著互聯(lián)網(wǎng)的普及和海量數(shù)據(jù)和信息的涌現(xiàn),自然語言處理作為人工智能的核心技術,在人們的工作、學習、生活中扮演著越來越重要的角色,并將在社會發(fā)展和科技進步的過程中發(fā)揮越來越重要的作用;一場人機關系變革正在進行中,自然語言處理已經(jīng)迎來了最好的發(fā)展時代,旨在讓計算機真正理解我們的自然語言處理技術,正在把人工智能推向一個新的高度—能理解、會思考的認知智能,這讓我們能夠?qū)ξ磥碛懈蟮南胂罂臻g。
那么NLP技術在實際工作中是如何在不同領域發(fā)揮其功用呢?筆者咨詢了明略科技集團信息檢索實驗室主任梁吉光博士,梁吉光博士表示:
“關于NLP的落地,不同于圖像識別、語音認識能感知智能的落地,NLP屬于認知智能,落地門檻稍高。NLP的應用主要有兩種:通用型技術應用和領域型技術應用。通用型技術應用主要包括語法分析、信息檢索、文本分類、情感分析、人機對話等任務,領域性技術應用則與應用場景緊密相關,如安全領域的輿情監(jiān)控、金融領域的智能風控、營銷領域的智能營銷、智能家居領域的智能音箱等?!?/p>
目前NLP技術已經(jīng)有了一定發(fā)展,并逐步在安全、金融、互聯(lián)網(wǎng)、智能家居設備、電子產(chǎn)品等領域開始落地應用,那么國內(nèi)NLP領域的發(fā)展情況究竟如何,已經(jīng)具備了哪些優(yōu)勢?未來NLP技術發(fā)展又會面對哪些技術挑戰(zhàn)呢?針對這些問題,梁吉光博士回復說:
“國內(nèi)自然語言處理研究一直走在國際前列水平,總體來講位居世界第二,僅次美國。從大環(huán)境角度,國內(nèi)自然語言處理技術的飛速發(fā)展得益于中國四十年改革開放,為技術與國際接軌提供了溫床。人工智能落地包括四要素:場景、數(shù)據(jù)、算法、算力。同樣,自然語言處理技術的發(fā)展也離不開這四大要素。工業(yè)界從不缺場景,缺的是能適用于場景的技術。在信息爆炸時代,數(shù)據(jù)越來越多,各種訓練集測試集涌現(xiàn);算法越來越復雜、越來越先進,尤其以深度神經(jīng)網(wǎng)絡為代表的的深度學習架構(gòu),預訓練模型更是將自然語言處理推向了新的范式;計算能力也越來越高,提供了大規(guī)模計算的可能性,從這一角度,數(shù)據(jù)“大”、算法“優(yōu)”,算力“快”是推動自然語言處理發(fā)展的直接原因?!?/p>
自然語言處理,讓人機交互不再遙遠;深度學習(DL),讓語言解析不再是智能系統(tǒng)的瓶頸?;谏疃葘W習的NLP技術已經(jīng)成為時下最主流的研究方法,并在在NLP領域的研究中取得一個又一個突破。DL最早突破的是語言模型,解決了傳統(tǒng)語言模型數(shù)據(jù)稀疏的問題。隨后,以CNN、RNN、LSTM為代表的深度神經(jīng)網(wǎng)絡模型對自然語言詞序列的特征提取發(fā)起了進階。再到當下“預訓練+微調(diào)”這一NLP新范式更是橫掃整個領域,尤其以GPT、BERT模型為優(yōu)秀代表頻頻刷新SOTA。這一新范式結(jié)合下游任務,將NLP推向了新的研究豐碑。
對于未來NLP技術發(fā)展將會面對的技術挑戰(zhàn)方面,梁博繼續(xù)補充道:
(1)“大力出奇跡”有瓶頸
當下基于深度學習方法的NLP技術取得了卓越的效果,但這類方法基于“大”數(shù)據(jù)、“大”模型,數(shù)據(jù)動則TB量級,模型參數(shù)更是達到千億級別,著實卷,沒有最大只有更大。此外,此類算力多不可復現(xiàn),且局限于財力雄厚玩家。卷到何時算了?卷不動的時候,或者大力已不能解決問題的時候,需要考慮技術突破方向。
(2)不可解釋性
自深度學習模型席卷NLP領域以來,其不可解釋性一直是研究者的關注點之一。這種不可解釋性也注定無法將模型很好地應用到依賴于過程解釋結(jié)果的領域,如法學、醫(yī)療、金融等領域。
從蒸汽時代到電氣時代,再到21世紀的信息時代,科技的發(fā)展推動著時代的進步,而人工智能正成為推動人類進入智能時代的決定性力量。當今的宇宙中人類是孤獨的,但在不久的未來,我們期待自然語言處理這一關鍵技術可以讓冰冷機器變得有溫度,實現(xiàn)人機同行的美好愿景。
相關閱讀:
來源:IPRdaily中文網(wǎng)(iprdaily.cn)
編輯:IPRdaily王穎 校對:IPRdaily縱橫君
注:原文鏈接:人工智能產(chǎn)業(yè)中不可忽略的技術領域之NLP(點擊標題查看原文)
青年有為!尋找2021年“40位40歲以下企業(yè)知識產(chǎn)權(quán)精英”活動正式啟動
「關于IPRdaily」
IPRdaily是具有全球影響力的知識產(chǎn)權(quán)媒體,致力于連接全球知識產(chǎn)權(quán)與科技創(chuàng)新人才。匯聚了來自于中國、美國、歐洲、俄羅斯、以色列、澳大利亞、新加坡、日本、韓國等15個國家和地區(qū)的高科技公司及成長型科技企業(yè)的管理者及科技研發(fā)或知識產(chǎn)權(quán)負責人,還有來自政府、律師及代理事務所、研發(fā)或服務機構(gòu)的全球近100萬用戶(國內(nèi)70余萬+海外近30萬),2019年全年全網(wǎng)頁面瀏覽量已經(jīng)突破過億次傳播。
(英文官網(wǎng):iprdaily.com 中文官網(wǎng):iprdaily.cn)
本文來自IPRdaily中文網(wǎng)(iprdaily.cn)并經(jīng)IPRdaily.cn中文網(wǎng)編輯。轉(zhuǎn)載此文章須經(jīng)權(quán)利人同意,并附上出處與作者信息。文章不代表IPRdaily.cn立場,如若轉(zhuǎn)載,請注明出處:“http://m.jupyterflow.com/
文章不錯,犒勞下辛苦的作者吧