#本文僅代表作者觀點(diǎn),未經(jīng)作者許可,禁止轉(zhuǎn)載,不代表IPRdaily立場#
來源:IPRdaily中文網(wǎng)(iprdaily.cn)
作者:隆天集團(tuán)中專隆天知識產(chǎn)權(quán)運(yùn)營(深圳)股份有限公司 周俊 高級項(xiàng)目經(jīng)理、專利分析師
原標(biāo)題:智能語義技術(shù)在專利檢索中的應(yīng)用
摘要
人工智能浪潮下,很多工作將會(huì)被替代。智能語義技術(shù)已經(jīng)在專利檢索中大規(guī)模應(yīng)用,未來將成為檢索專家的得力助手還是終結(jié)者?筆者基于其曾在專利審查工作中使用智能語義開展檢索的豐富經(jīng)驗(yàn),通過梳理智能語義技術(shù)產(chǎn)生的原因、基本原理及其在專利檢索中的應(yīng)用方式,給出了一個(gè)答案。
專利檢索經(jīng)歷了百余年的發(fā)展歷史,早在19世紀(jì)末美國政府就在咨詢工作中應(yīng)用專利檢索技術(shù),當(dāng)時(shí)是針對紙質(zhì)專利文獻(xiàn)的手工檢索。從20世紀(jì)70年代起,基于計(jì)算機(jī)的專利檢索逐步普及,專利檢索的效率也因此大幅提升,但對于當(dāng)時(shí)的公眾而言,獲取專利信息仍然是十分困難的事情。直到1997年IBM開始在互聯(lián)網(wǎng)上提供專利信息服務(wù),公眾獲取專利信息才變得相對容易[1] ??v觀專利檢索的發(fā)展歷史,伴隨著信息技術(shù)的變革,專利信息獲取和利用的方式也在不斷發(fā)生變化。
進(jìn)入21世紀(jì)以來,信息技術(shù)創(chuàng)新日益加快,人工智能技術(shù)的發(fā)展尤為迅速,網(wǎng)絡(luò)購物時(shí)的推薦算法、掃臉支付、語音助理等新技術(shù)已經(jīng)不知不覺融入到我們的日常生活中。在專利檢索分析領(lǐng)域,被稱作智能語義的新技術(shù)也進(jìn)入到了重要的發(fā)展時(shí)期。2018年5月,世界知識產(chǎn)權(quán)組織召開“知識產(chǎn)權(quán)局關(guān)于ICT戰(zhàn)略和人工智能”會(huì)議,會(huì)議資料顯示,多個(gè)國家和地區(qū)的知識產(chǎn)權(quán)局已經(jīng)開始嘗試在專利審查的檢索環(huán)節(jié)應(yīng)用智能語義技術(shù) [2]。在商用專利數(shù)據(jù)庫領(lǐng)域,多款工具已經(jīng)具備了智能語義檢索功能。新技術(shù)的出現(xiàn)為專利檢索工作帶來了什么樣的變化?作者基于其曾在專利審查工作中使用智能語義開展檢索的豐富經(jīng)驗(yàn),簡要介紹智能語義技術(shù)產(chǎn)生的原因、基本原理及其在專利檢索中的應(yīng)用方式。
傳統(tǒng)檢索面臨的困境
困境,不僅存在于專利檢索中,而是在于所有的傳統(tǒng)搜索領(lǐng)域。信息爆炸是困境的主要來源,隨著人類知識以幾何級數(shù)量增長,想要快速準(zhǔn)確的搜索到所需信息并不是一件容易的事情。專利行業(yè)同樣面臨數(shù)據(jù)增長的問題,僅中國大陸公開的專利文獻(xiàn)數(shù)量,發(fā)明和實(shí)用新型專利文獻(xiàn)總量從2008年底只有不到250萬件,已經(jīng)躍升到2018年底的1700萬余件,10年的時(shí)間增長了7倍,這為開展專利檢索工作帶來巨大的挑戰(zhàn)。
基于傳統(tǒng)的布爾檢索方式,檢索專家們致力于在檢索全面性和檢索效率之間尋找平衡:任何一個(gè)技術(shù)概念都有諸多的表述方式,檢索時(shí)只有盡可能全面的列舉這些表述方式,才能保證不漏掉重要文獻(xiàn);但每一種表述方式又會(huì)有多重含義,全面的表述將引入大量不準(zhǔn)確的噪聲文件,這些噪聲文件浪費(fèi)了檢索人員的瀏覽時(shí)間。如今,檢索專家們面對著增長了數(shù)十倍的專利文獻(xiàn),感到越來越難在檢索的全面性與檢索效率之間找到平衡。
智能語義檢索的興起
為了解決傳統(tǒng)檢索面臨的困境,出現(xiàn)了一種自動(dòng)擴(kuò)展檢索內(nèi)容的語義技術(shù),具體來說是構(gòu)建一個(gè)大型的同義詞庫,將用戶輸入的內(nèi)容在同義詞庫中搜索,擴(kuò)展相關(guān)關(guān)鍵詞來提高檢索的命中率。但是,這種語義技術(shù)雖然提高了檢索的全面性,但應(yīng)用該算法會(huì)在每次檢索中命中更多的專利,同樣引入了噪聲文件,增加了檢索人員瀏覽和篩選文獻(xiàn)的工作量。
另一種智能語義技術(shù)是基于語義相關(guān)性的排序。這種技術(shù)基于專利文本數(shù)據(jù)開展機(jī)器學(xué)習(xí),自動(dòng)運(yùn)算詞語之間和文檔之間的相關(guān)性,基于相關(guān)性對文獻(xiàn)進(jìn)行排序。這種方法的目標(biāo)是將最相關(guān)技術(shù)排在最前,直接提升檢索人員瀏覽文獻(xiàn)的效率。應(yīng)用該技術(shù)的專利檢索工具,可以允許用戶輸入任意長度的一段文本或是直接輸入一個(gè)專利公開號,系統(tǒng)將自動(dòng)推薦最相關(guān)的文獻(xiàn)。
智能語義技術(shù)在專利檢索中的應(yīng)用
對于基于同義詞庫的語義搜索技術(shù),由于計(jì)算機(jī)僅僅是對用戶輸入的內(nèi)容進(jìn)行了擴(kuò)展,在具體檢索時(shí)仍然執(zhí)行了布爾檢索,因此這種語義檢索工具和傳統(tǒng)布爾檢索工具的差別不大,在理解和使用上沒有太大的困難。
而基于潛在語義索引的搜索技術(shù),則完全脫離了傳統(tǒng)布爾檢索的范疇,與我們長期對檢索的理解大不相同。這種搜索技術(shù)完全拋棄了從一個(gè)文獻(xiàn)集中限定出子集的過程,而是按照用戶所輸入文本內(nèi)容的相關(guān)性,直接對一個(gè)文獻(xiàn)集進(jìn)行排序。下面簡要介紹應(yīng)用這種技術(shù)開展專利檢索的兩種方法。
第一種方法是完全獨(dú)立使用智能語義檢索。此時(shí)檢索人員只需將想要檢索的一段文本輸入語義檢索系統(tǒng),計(jì)算機(jī)就能根據(jù)用戶輸入的文本,對數(shù)據(jù)庫中存儲的千萬乃至上億條專利做排序,檢索人員依次瀏覽就可能獲得所需的專利。由于這種檢索方式不需要任何的檢索策略,完全沒有檢索經(jīng)驗(yàn)的人也能很快上手。對于檢索經(jīng)驗(yàn)豐富的人,在檢索初期也可以優(yōu)先使用這種方法進(jìn)行試探性檢索,有一定的幾率可以很快獲得滿意的結(jié)果,并且可以通過統(tǒng)計(jì)分析排序靠前的專利,發(fā)現(xiàn)更多的關(guān)鍵詞表述方式或相關(guān)的專利分類號。
完全獨(dú)立使用智能語義檢索,雖然可以提升檢索的效率,但仍然不能替代檢索專家和布爾檢索。其中一個(gè)主要原因是:智能語義技術(shù)無法進(jìn)行技術(shù)方案層面的理解,換句話說,智能語義技術(shù)還不能像檢索專家一樣,提煉出技術(shù)方案的核心技術(shù)特征開展精準(zhǔn)檢索。例如針對下面的一段文本,檢索專家基于其中描述的技術(shù)方案和對現(xiàn)有技術(shù)的理解,會(huì)將“缺口”和“折彎部”這兩個(gè)特征作為核心特征來檢索,而目前的智能語義算法還無法模擬檢索專家從文本到技術(shù)方案這一抽象的思維過程。
一種一體式自拍裝置,包括伸縮桿及用于夾持拍攝設(shè)備的夾持裝置,所述夾持裝置包括載物臺及設(shè)于載物臺上方的可拉伸夾緊機(jī)構(gòu),其特征在于:所述夾持裝置一體式轉(zhuǎn)動(dòng)連接于所述伸縮桿的頂端,所述載物臺上設(shè)有一缺口,所述夾緊機(jī)構(gòu)設(shè)有一與所述缺口位置相對應(yīng)的折彎部,所述伸縮桿折疊后可容置于所述缺口及折彎部。
使用智能語義最佳的方式是與專家布爾檢索結(jié)合使用。具體來說是利用布爾檢索式獲得檢索結(jié)果后,再利用一個(gè)與布爾檢索式無關(guān)的排序因子對上述檢索結(jié)果進(jìn)行排序。布爾檢索式用于精準(zhǔn)的表達(dá)技術(shù)方案的核心特征,智能語義將其他非核心特征用相關(guān)性來表述,用排序的方法展示給檢索專家。這樣檢索的好處是,一方面可以充分發(fā)揮檢索專家定義核心特征的作用,保證了檢索的精準(zhǔn)度,同時(shí)發(fā)揮智能語義算法搜索的全面性,避免了因?yàn)閷Ψ呛诵募夹g(shù)特征的表述不夠全面而導(dǎo)致的漏檢。
針對上面的例子,如果獨(dú)立使用布爾檢索,則至少要在檢索時(shí)限定出自拍裝置、夾持裝置、缺口、彎折部等特征,但將語義與布爾檢索結(jié)合時(shí),可以僅用布爾檢索搜索缺口、彎折部等核心特征,再將該全部文本作為排序因子對檢索結(jié)果排序,就能將與自拍裝置、夾持高度相關(guān)的專利排序到最前。這種檢索方式既提高了檢索的準(zhǔn)確性,又避免了漏掉重要專利,檢索的效率也能大幅提升。
每當(dāng)聽到人工智能將會(huì)取代某些工作時(shí),相信不少人會(huì)有一絲擔(dān)憂。但筆者認(rèn)為,專利檢索本身是一種目標(biāo)高度不確定、需要大量主觀思考判斷和綜合分析的工作,檢索專家們完全不必把智能語義看作是競爭對手,而是當(dāng)成今后工作中的重要工具為自己賦能。相信語義技術(shù)與專家布爾檢索的結(jié)合會(huì)是未來檢索的主流,基于海量數(shù)據(jù)模型的語義排序與基于布爾的精確命中,將會(huì)合奏出人與人工智能融合的完美樂章。
注釋:
[1]陳燕, 黃迎燕, 方建國. 專利信息采集與分析[M]. 清華大學(xué)出版社, 2006:104-106.
[2]WIPO/IP/ITAI/GE/18,May 23 to May 25, 2018 (Geneva, Switzerland),https://www.wipo.int/meetings/en/details.jsp?meeting_id=46586.
來源:IPRdaily中文網(wǎng)(iprdaily.cn)
作者:隆天集團(tuán)中專隆天知識產(chǎn)權(quán)運(yùn)營(深圳)股份有限公司 周俊 高級項(xiàng)目經(jīng)理、專利分析師
編輯:IPRdaily趙珍 校對:IPRdaily縱橫君
推薦閱讀(點(diǎn)擊圖文,閱讀全文)
開年重磅!尋找40位40歲以下企業(yè)知識產(chǎn)權(quán)精英(40 Under 40)
“投稿”請投郵箱“iprdaily@163.com”
「關(guān)于IPRdaily」
IPRdaily成立于2014年,是全球影響力的知識產(chǎn)權(quán)媒體+產(chǎn)業(yè)服務(wù)平臺,致力于連接全球知識產(chǎn)權(quán)人,用戶匯聚了中國、美國、德國、俄羅斯、以色列、澳大利亞、新加坡、日本、韓國等15個(gè)國家和地區(qū)的高科技公司、成長型科技企業(yè)IP高管、研發(fā)人員、法務(wù)、政府機(jī)構(gòu)、律所、事務(wù)所、科研院校等全球近50多萬產(chǎn)業(yè)用戶(國內(nèi)25萬+海外30萬);同時(shí)擁有近百萬條高質(zhì)量的技術(shù)資源+專利資源,通過媒體構(gòu)建全球知識產(chǎn)權(quán)資產(chǎn)信息第一入口。2016年獲啟賦資本領(lǐng)投和天使匯跟投的Pre-A輪融資。
(英文官網(wǎng):iprdaily.com 中文官網(wǎng):iprdaily.cn)
本文來自IPRdaily.cn 中文網(wǎng)并經(jīng)IPRdaily.cn中文網(wǎng)編輯。轉(zhuǎn)載此文章須經(jīng)權(quán)利人同意,并附上出處與作者信息。文章不代表IPRdaily.cn立場,如若轉(zhuǎn)載,請注明出處:“http://m.jupyterflow.com/”
文章不錯(cuò),犒勞下辛苦的作者吧