#本文僅代表作者觀點(diǎn),不代表IPRdaily立場(chǎng),未經(jīng)作者許可,禁止轉(zhuǎn)載#
來(lái)源:IPRdaily(iprdaily.cn)
原標(biāo)題:人工智能產(chǎn)業(yè)中不可忽略的技術(shù)領(lǐng)域之知識(shí)圖譜
知識(shí)圖譜,是顯示知識(shí)發(fā)展進(jìn)程與結(jié)構(gòu)關(guān)系的一系列各種不同的圖形,用可視化技術(shù)描述知識(shí)資源及其載體,挖掘、分析、構(gòu)建、繪制和顯示知識(shí)及它們之間的相互聯(lián)系。本文主要分析了何為知識(shí)圖譜,知識(shí)圖譜的現(xiàn)狀及發(fā)展。
2012年,Google推出了一款名叫Knowledge Graph(知識(shí)圖譜)的產(chǎn)品,該產(chǎn)品從Metaweb衍生而來(lái),主要用于提高搜索引擎質(zhì)量,改善用戶搜索體驗(yàn)。
2020年,知識(shí)圖譜從一個(gè)分支產(chǎn)品成為建立大規(guī)模知識(shí)的殺手锏應(yīng)用,在搜索、自然語(yǔ)言處理、智能助手、電子商務(wù)等領(lǐng)域發(fā)揮著重要作用。
8年時(shí)間,隨著大數(shù)據(jù)時(shí)代的到來(lái)和人工智能技術(shù)的飛速進(jìn)步,知識(shí)圖譜越發(fā)顯露出其基礎(chǔ)性和重要性。
那么,到底什么是知識(shí)圖譜呢?
知識(shí)圖譜,是顯示知識(shí)發(fā)展進(jìn)程與結(jié)構(gòu)關(guān)系的一系列各種不同的圖形,用可視化技術(shù)描述知識(shí)資源及其載體,挖掘、分析、構(gòu)建、繪制和顯示知識(shí)及它們之間的相互聯(lián)系。
知識(shí)圖譜可以將互聯(lián)網(wǎng)的信息表達(dá)成更接近人類認(rèn)知世界的形式,同時(shí)提供了一種更好的組織、管理和理解互聯(lián)網(wǎng)海量信息的能力。知識(shí)圖譜給互聯(lián)網(wǎng)語(yǔ)義搜索帶來(lái)了活力,同時(shí)也在智能問答中顯示出強(qiáng)大威力,已經(jīng)成為互聯(lián)網(wǎng)知識(shí)驅(qū)動(dòng)的智能應(yīng)用的基礎(chǔ)設(shè)施。知識(shí)圖譜與大數(shù)據(jù)和深度學(xué)習(xí)一起,成為推動(dòng)互聯(lián)網(wǎng)和人工智能發(fā)展的核心驅(qū)動(dòng)力之一。【1】
文字表述看似深?yuàn)W,實(shí)則我們?cè)谌粘I钪薪?jīng)常感受到知識(shí)圖譜技術(shù)帶來(lái)的便利。
圖1
圖2
比如在百度中搜索劉德華的個(gè)人信息,會(huì)出現(xiàn)圖1和圖2兩種展示形式,從內(nèi)容上看,兩者展示的信息差別不大,但圖2看起來(lái)就更加直觀。尤其是隨著文本內(nèi)容的增加,圖2的表現(xiàn)形式的優(yōu)勢(shì)就會(huì)更加突出。放到大數(shù)據(jù)的互聯(lián)網(wǎng)平臺(tái),圖2的表達(dá)模式顯然更便于處理加工,但是互聯(lián)網(wǎng)等數(shù)據(jù)平臺(tái)所搜集的信息多為如圖1所示的碎片式信息,所以把圖1內(nèi)的文字內(nèi)容轉(zhuǎn)換成圖2的過(guò)程,就涉及到上面提及的知識(shí)圖譜技術(shù)。
圖3
再比如圖3,我們經(jīng)常會(huì)看到針對(duì)某個(gè)人或者某件事關(guān)鍵詞的呈現(xiàn),事實(shí)上這種呈現(xiàn)形式也是機(jī)器利用知識(shí)圖譜技術(shù)把網(wǎng)友的評(píng)價(jià)等碎片化的信息進(jìn)行整理加工后形成的。
2020年的知識(shí)圖譜技術(shù)發(fā)展現(xiàn)狀
據(jù)《2020人工智能中國(guó)專利技術(shù)分析報(bào)告》統(tǒng)計(jì),知識(shí)圖譜技術(shù)專利申請(qǐng)量整體呈現(xiàn)穩(wěn)中上升的趨勢(shì)。自2012年起,我國(guó)知識(shí)圖譜技術(shù)領(lǐng)域內(nèi)專利申請(qǐng)?jiān)鲩L(zhǎng)速度顯著加快,從圖4可以看到,2019年申請(qǐng)量達(dá)到巔峰,全年共申請(qǐng)4966件相關(guān)專利。據(jù)不完全數(shù)據(jù)統(tǒng)計(jì),2020起始截止到2020年10月底,該領(lǐng)域的專利申請(qǐng)量已達(dá)到1942件,知識(shí)圖譜技術(shù)正成為各權(quán)利主體獲取人工智能產(chǎn)業(yè)競(jìng)爭(zhēng)力的有力武器。【2】
圖4:我國(guó)知識(shí)圖譜領(lǐng)域?qū)@暾?qǐng)量年度變化趨勢(shì)(2020年統(tǒng)計(jì)數(shù)據(jù)截止至2020年10月底,受公開滯后影響,統(tǒng)計(jì)數(shù)據(jù)為不完全數(shù)據(jù))
為了更好的了解知識(shí)圖譜領(lǐng)域?qū)@暾?qǐng)人(或企業(yè))的情況,筆者通過(guò)北京市知識(shí)產(chǎn)權(quán)公共信息服務(wù)平臺(tái)對(duì)知識(shí)圖譜領(lǐng)域的專利申請(qǐng)情況進(jìn)行了檢索,檢索結(jié)果如圖5所示,通過(guò)檢索發(fā)現(xiàn),在知識(shí)圖譜領(lǐng)域,騰訊科技(深圳)有限公司 、北京百度網(wǎng)訊科技有限公司、平安科技(深圳)有限公司、北京明略軟件系統(tǒng)有限公司以及百度在線網(wǎng)絡(luò)技術(shù)(北京)有限公司分別排名前五。其中,騰訊科技以550件專利量排名第一,百度網(wǎng)訊以346件專利量排名第二,平安科技以182件專利量排名第三,北京明略以110件專利量排名第四,百度以92件專利量排名第五。
圖5 檢索日期:2021年2月22日
同時(shí),筆者也在國(guó)家知識(shí)產(chǎn)權(quán)局專利檢索及分析網(wǎng)站檢索了知識(shí)圖譜領(lǐng)域的相關(guān)專利,檢索結(jié)果如圖6所示,與使用北京信息服務(wù)平臺(tái)檢索的結(jié)果相比,前五名的專利申請(qǐng)人的出入不大,分別為百度網(wǎng)訊、平安科技、騰訊科技、海南大學(xué)、北京明略。不過(guò)在專利申請(qǐng)量上有些區(qū)別,百度網(wǎng)訊以237件專利申請(qǐng)量排名第一,平安科技以136件專利申請(qǐng)量排名第二,騰訊科技以116件專利申請(qǐng)量排名第三,海南大學(xué)以64件專利申請(qǐng)量排名第四,北京明略以59件專利申請(qǐng)量排名第五。
圖6 檢索日期:2021年2月22日
從圖7中可以看出,2020年知識(shí)圖譜領(lǐng)域?qū)@暾?qǐng)量國(guó)內(nèi)各省市排名中,北京、廣東是主要申請(qǐng)區(qū)域,其中,北京以占比31%的專利申請(qǐng)量排名第一,廣東以占比24%的專利申請(qǐng)量排名第二,浙江則以占比11%的專利申請(qǐng)量排名第三。
圖7:2020年知識(shí)圖譜領(lǐng)域?qū)@暾?qǐng)國(guó)內(nèi)各省市的占比情況
使用工具:智慧芽專利數(shù)據(jù)庫(kù) 智慧芽英策
從圖8中可以看出,2020年申請(qǐng)的知識(shí)圖譜領(lǐng)域的專利的IPC主要集中在G06、H04,其中G06F16以占比21%排名第一,G06K9以占比17%排名第二;G06N3以占比14%排名第三。
圖8:2020年知識(shí)圖譜領(lǐng)域?qū)@暾?qǐng)IPC技術(shù)分支的占比情況
使用工具:智慧芽專利數(shù)據(jù)庫(kù),智慧芽英策
從圖9中可以發(fā)現(xiàn),人工智能、知識(shí)圖譜、特征向量、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等關(guān)鍵詞成為2020年知識(shí)圖譜領(lǐng)域申請(qǐng)專利中的創(chuàng)新詞云。
圖9:2020年知識(shí)圖譜領(lǐng)域?qū)@械膭?chuàng)新詞云
使用工具:智慧芽專利數(shù)據(jù)庫(kù),智慧芽英策
據(jù)中國(guó)軟件網(wǎng)不完全統(tǒng)計(jì),我國(guó)知識(shí)圖譜產(chǎn)品或解決方案主流企業(yè)約有38家,在這其中,布局在金融領(lǐng)域的企業(yè)約占65%,公共服務(wù)與政務(wù)領(lǐng)域約占26%,能源與工業(yè)領(lǐng)域約占26%,是企業(yè)入局最高的三大領(lǐng)域。
圖10:知識(shí)圖譜企業(yè)在行業(yè)應(yīng)用中的分布情況
中國(guó)軟件網(wǎng)整理制圖
從圖10可以發(fā)現(xiàn),許多公司利用知識(shí)圖譜技術(shù)涉足金融、公共服務(wù)與政務(wù)、醫(yī)療醫(yī)藥、能源與工業(yè)和商業(yè)領(lǐng)域等多個(gè)領(lǐng)域,比如騰訊云利用知識(shí)圖譜技術(shù)發(fā)展物聯(lián)網(wǎng),并將其應(yīng)用于醫(yī)療儀器、運(yùn)輸業(yè)車輛GPS等,阿里云利用知識(shí)圖譜技術(shù)支持電力領(lǐng)域的操作規(guī)程等工作,華為云更是利用知識(shí)圖譜技術(shù)助力油氣的勘探開發(fā),明略科技利用知識(shí)圖譜技術(shù)在金融、公共服務(wù)與政務(wù)、能源與工業(yè)和商業(yè)領(lǐng)域等均有涉足,北京海致網(wǎng)聚信息技術(shù)有限公司利用知識(shí)圖譜技術(shù)實(shí)現(xiàn)在公安領(lǐng)域的落地實(shí)踐。
那么知識(shí)圖譜在實(shí)際工作中是如何在不同領(lǐng)域發(fā)揮其功用呢?筆者咨詢了明略科技集團(tuán)知識(shí)工程實(shí)驗(yàn)室主任張杰博士,張杰博士曾帶領(lǐng)團(tuán)隊(duì)以“知識(shí)圖譜自動(dòng)構(gòu)建及行業(yè)應(yīng)用”為題獲得了2020年度第十屆吳文俊人工智能科學(xué)技術(shù)一等獎(jiǎng)。張杰博士表示:
過(guò)去幾年,明略科技通過(guò)自主研發(fā)的知識(shí)圖譜平臺(tái)和預(yù)構(gòu)建的行業(yè)解決方案服務(wù)于政府、公安、銀行、保險(xiǎn)、證券、軌交、電力、制造、融媒體、食品安全等領(lǐng)域的200多個(gè)行業(yè)客戶。
在社交媒體輿情分析場(chǎng)景中,基于知識(shí)圖譜,可以把用戶產(chǎn)生的評(píng)論,與后臺(tái)的產(chǎn)品知識(shí)庫(kù)相對(duì)應(yīng),便于運(yùn)營(yíng)人員對(duì)產(chǎn)品更細(xì)粒度的特性做用戶輿情走勢(shì)分析,隨后把這些結(jié)果整合到BI系統(tǒng),從而實(shí)現(xiàn)用戶需求洞察,輔助生產(chǎn)創(chuàng)意內(nèi)容,實(shí)現(xiàn)千人千面的個(gè)性化廣告。
在線下零售場(chǎng)景中,首先銷售人員通過(guò)佩戴明略的電子工牌,將銷售過(guò)程數(shù)字化,然后通過(guò)語(yǔ)音識(shí)別技術(shù)將銷售對(duì)話轉(zhuǎn)為文字,再通過(guò)自然語(yǔ)言處理技術(shù)進(jìn)行話題分類,計(jì)算出話題之間轉(zhuǎn)移的概率,形成一個(gè)話題轉(zhuǎn)移的知識(shí)圖譜,最后通過(guò)與金牌銷售員的話題圖譜做比對(duì),可以幫助銷售人員做復(fù)盤,分析流單的主要環(huán)節(jié),改善話術(shù)并提高成單率。我們研發(fā)的HAO圖譜系統(tǒng)是目前國(guó)際上第一個(gè)語(yǔ)音實(shí)時(shí)生成圖譜的企業(yè)級(jí)知識(shí)圖譜開發(fā)工具包。
在金融風(fēng)控場(chǎng)景中,個(gè)人信貸客戶可以通過(guò)親友、同事、擔(dān)保等關(guān)系組成圖譜,對(duì)公客戶可以通過(guò)股權(quán)、擔(dān)保、資金關(guān)系組成圖譜,我們使用圖表示學(xué)習(xí)算法將客戶做向量化表示,向量中蘊(yùn)含了圖譜的結(jié)構(gòu)信息,這個(gè)向量可以用于反欺詐模型和信用評(píng)分模型。
在工業(yè)設(shè)備維保場(chǎng)景中,我們可以從傳感器發(fā)出的故障信號(hào)的時(shí)間序列數(shù)據(jù)中挖掘出故障的主伴生關(guān)系,可以從維修工單的非結(jié)構(gòu)化文本中挖掘出因果關(guān)系,然后逐漸拼接出檢修知識(shí)圖譜,為維修工人提供檢修最佳實(shí)踐,應(yīng)用這套系統(tǒng)后車輛故障率降低約50%,逐步從每日檢修變成每8日檢修,大幅度降低運(yùn)營(yíng)故障、減少了人工作業(yè)、提高了檢修效率。
知識(shí)圖譜前路坦蕩,未來(lái)已來(lái)
根據(jù)統(tǒng)計(jì)的數(shù)據(jù)顯示,目前知識(shí)圖譜已經(jīng)在技術(shù)上有了一定發(fā)展,并逐步在電子商務(wù)、公安、醫(yī)療等領(lǐng)域開始落地,那么目前知識(shí)圖譜領(lǐng)域的發(fā)展情況究竟如何,已經(jīng)具備了哪些優(yōu)勢(shì)?未來(lái)知識(shí)圖譜技術(shù)發(fā)展又將會(huì)面對(duì)哪些技術(shù)挑戰(zhàn)呢?針對(duì)這些問題,張杰博士回復(fù)說(shuō):
知識(shí)圖譜的發(fā)展得益于技術(shù)的逐漸成熟和數(shù)字化轉(zhuǎn)型的歷史趨勢(shì)。最近幾年在大數(shù)據(jù)和人工智能技術(shù)飛速發(fā)展的背景下,很多傳統(tǒng)行業(yè)開展了新一輪的數(shù)字化轉(zhuǎn)型,2020年兩會(huì)期間,數(shù)字化轉(zhuǎn)型被寫入政府工作報(bào)告。智能化是企業(yè)數(shù)字化轉(zhuǎn)型的新方向、新階段。在智能化的過(guò)程中,業(yè)內(nèi)普遍認(rèn)為可以分為三個(gè)階段:算力智能、感知智能和認(rèn)知智能。知識(shí)圖譜被認(rèn)為是從感知智能邁向認(rèn)知智能的關(guān)鍵環(huán)節(jié),因此得到了廣泛關(guān)注,越來(lái)越多的企業(yè)和組織開展知識(shí)圖譜的建設(shè)并結(jié)合業(yè)務(wù)場(chǎng)景開展應(yīng)用:一種是較為通用的技術(shù)型應(yīng)用,如可視化洞察、信息檢索、推薦系統(tǒng)、任務(wù)型問答;另一種是具有行業(yè)特色的解決方案型應(yīng)用,如金融反欺詐、快消品營(yíng)銷、工業(yè)維保等。
知識(shí)圖譜的優(yōu)勢(shì)主要體現(xiàn)在以下幾個(gè)方面:1)連接企業(yè)內(nèi)部數(shù)據(jù)和外部的海量數(shù)據(jù)。知識(shí)圖譜對(duì)數(shù)據(jù)類型的定義靈活,并能高效的支持深層次的關(guān)聯(lián)查詢,拓展企業(yè)數(shù)據(jù)總量的同時(shí)提升數(shù)據(jù)利用效率,釋放出大數(shù)據(jù)紅利;2)連接大數(shù)據(jù)技術(shù)和人工智能技術(shù)。它可以從網(wǎng)絡(luò)結(jié)構(gòu)、時(shí)間序列、行為對(duì)話等新型數(shù)據(jù)中加工出高階特征,提供給下游的算法工程師,使其更專注在具體的業(yè)務(wù)模型上;3)連接領(lǐng)域知識(shí)和常識(shí)知識(shí)。它可以對(duì)已有的知識(shí)體系做融合、補(bǔ)全、推理,提高知識(shí)體系的完備性,為流程優(yōu)化、輔助決策、預(yù)測(cè)分析等下游應(yīng)用提供基礎(chǔ)服務(wù)。
雖然知識(shí)圖譜技術(shù)具有廣闊的應(yīng)用前景,但現(xiàn)階段仍面臨很多技術(shù)挑戰(zhàn):1)構(gòu)建成本問題。對(duì)于結(jié)構(gòu)化數(shù)據(jù)需要復(fù)雜的數(shù)據(jù)治理工作,對(duì)于非結(jié)構(gòu)數(shù)據(jù),信息抽取環(huán)節(jié)需要大量的標(biāo)注工作;2)推理準(zhǔn)確度問題。知識(shí)圖譜可以為搜索引擎、推薦引擎帶來(lái)準(zhǔn)確度提升,但其獨(dú)特的應(yīng)用價(jià)值在推理問答,需要解決在領(lǐng)域知識(shí)不完備、且數(shù)據(jù)總量大的情況下進(jìn)行快速準(zhǔn)確的推理;3)形式化表示問題。知識(shí)圖譜的價(jià)值在應(yīng)用,應(yīng)用的難點(diǎn)在于知識(shí)推理,知識(shí)推理的難點(diǎn)在于知識(shí)表示。已有技術(shù)成果多集中在事實(shí)知識(shí)(know-what)上,原理知識(shí)(know-why)和技能知識(shí)(know-how)的研究缺乏數(shù)學(xué)基礎(chǔ)和最佳實(shí)踐參考。
有些行業(yè)的數(shù)字化進(jìn)程啟動(dòng)較晚,需要先解決數(shù)據(jù)在線和數(shù)據(jù)積累的問題,并且文化上重視數(shù)字化建設(shè)和數(shù)字化管理才可能使知識(shí)圖譜技術(shù)得以應(yīng)用。未來(lái)的改變可能會(huì)有以下幾方面:1)隨著5G、物聯(lián)網(wǎng)和感知技術(shù)的逐級(jí)成熟,企業(yè)非結(jié)構(gòu)化數(shù)據(jù)的占比會(huì)越來(lái)越高,從語(yǔ)音、圖像、視頻的多模態(tài)數(shù)據(jù)中聯(lián)合抽取知識(shí)的需求會(huì)越來(lái)越多;2)行業(yè)know-how類知識(shí)與know-what類知識(shí)可以相結(jié)合,從而推動(dòng)人機(jī)協(xié)同下的智能決策;3)知識(shí)密集型行業(yè)中的企業(yè)越來(lái)越重視知識(shí)資產(chǎn),基于知識(shí)圖譜技術(shù)建設(shè)知識(shí)中臺(tái),而不僅是管理文檔、管理數(shù)據(jù),并以專家經(jīng)驗(yàn)加數(shù)據(jù)驅(qū)動(dòng)的方式做因果關(guān)系發(fā)現(xiàn)和因果推斷,輔助業(yè)務(wù)做出決策。
從蒸汽時(shí)代到電氣時(shí)代,再到21世紀(jì)的信息時(shí)代,科技的發(fā)展推動(dòng)著時(shí)代的進(jìn)步,而人工智能正成為推動(dòng)人類進(jìn)入智能時(shí)代的決定性力量。我們期待知識(shí)圖譜這一被認(rèn)為是從感知智能邁向認(rèn)知智能的關(guān)鍵環(huán)節(jié)的技術(shù)在未來(lái)有更大、更廣闊的應(yīng)用與發(fā)展空間。
注:
【1】:《產(chǎn)業(yè)專利分析報(bào)告-人工智能關(guān)鍵技術(shù)(第68冊(cè))》
【2】:工信部電子知識(shí)產(chǎn)權(quán)中心公眾號(hào)文章《知識(shí)圖譜專利布局加快 提升AI產(chǎn)業(yè)競(jìng)爭(zhēng)力》
來(lái)源:IPRdaily中文網(wǎng)(iprdaiy.cn)
編輯:IPRdaily王穎 校對(duì):IPRdaily縱橫君
注:原文鏈接:人工智能產(chǎn)業(yè)中不可忽略的技術(shù)領(lǐng)域之知識(shí)圖譜(點(diǎn)擊標(biāo)題查看原文)
如有想看文章主題內(nèi)容,歡迎留言評(píng)論~
開年重磅!“粵港澳大灣區(qū)40位知識(shí)產(chǎn)權(quán)領(lǐng)軍人物”評(píng)選活動(dòng)正式啟動(dòng)(附規(guī)則)
“粵港澳大灣區(qū)40位知識(shí)產(chǎn)權(quán)新銳人物”評(píng)選活動(dòng)正式啟動(dòng)(附規(guī)則)
「關(guān)于IPRdaily」
IPRdaily是具有全球影響力的知識(shí)產(chǎn)權(quán)媒體,致力于連接全球知識(shí)產(chǎn)權(quán)與科技創(chuàng)新人才。匯聚了來(lái)自于中國(guó)、美國(guó)、歐洲、俄羅斯、以色列、澳大利亞、新加坡、日本、韓國(guó)等15個(gè)國(guó)家和地區(qū)的高科技公司及成長(zhǎng)型科技企業(yè)的管理者及科技研發(fā)或知識(shí)產(chǎn)權(quán)負(fù)責(zé)人,還有來(lái)自政府、律師及代理事務(wù)所、研發(fā)或服務(wù)機(jī)構(gòu)的全球近100萬(wàn)用戶(國(guó)內(nèi)70余萬(wàn)+海外近30萬(wàn)),2019年全年全網(wǎng)頁(yè)面瀏覽量已經(jīng)突破過(guò)億次傳播。
(英文官網(wǎng):iprdaily.com 中文官網(wǎng):iprdaily.cn)
本文來(lái)自中國(guó)科技新聞網(wǎng)并經(jīng)IPRdaily.cn中文網(wǎng)編輯。轉(zhuǎn)載此文章須經(jīng)權(quán)利人同意,并附上出處與作者信息。文章不代表IPRdaily.cn立場(chǎng),如若轉(zhuǎn)載,請(qǐng)注明出處:“http://m.jupyterflow.com/
文章不錯(cuò),犒勞下辛苦的作者吧