#本文僅代表作者觀點(diǎn),不代表IPRdaily立場(chǎng),未經(jīng)作者許可,禁止轉(zhuǎn)載#
“一文帶你了解微信是如何做到準(zhǔn)確提取圖片文字的?!?/strong>
來(lái)源:IPRdaily中文網(wǎng)(iprdaily.cn)
作者:李文軍
最近,微信在安卓8.0.24正式版更新了新功能,名為“圖片大爆炸”。該功能通過(guò)長(zhǎng)按圖片,可以提取到圖片上的文字進(jìn)行后續(xù)的復(fù)制粘貼以及搜索等操作,有效地解決了以往用戶(hù)在使用過(guò)程中經(jīng)常遇到的電話號(hào)碼、快遞單號(hào)、網(wǎng)址等信息以圖片的形式得到而又無(wú)法直接使用、需要手動(dòng)輸入的窘迫情形。
圖1 微信對(duì)話場(chǎng)景
1、使用微信“圖片大爆炸”功能進(jìn)行圖片文字提取
微信圖片文字提取功能的操作及界面如圖2-圖4所示:
點(diǎn)開(kāi)需要提取文字的圖片,長(zhǎng)按屏幕上對(duì)應(yīng)該圖片的位置,即可出現(xiàn)文字提取操作選擇界面;
圖2 長(zhǎng)按圖片導(dǎo)出“提取文字”操作界面
在彈出對(duì)話框中選擇“提取文字”操作圖標(biāo),即可在屏幕圖片上的文字進(jìn)行識(shí)別或進(jìn)一步地進(jìn)行文字涂抹選擇;
圖3 進(jìn)行圖片文字提取
選擇并用手指涂抹想要使用的字段即可供用戶(hù)輕松的進(jìn)行“呼叫”、“添加到通訊錄”、“復(fù)制”、“搜一搜”、“轉(zhuǎn)發(fā)”以及“收藏”等操作。
圖4 提取出文字支持進(jìn)一步操作
通過(guò)簡(jiǎn)單的幾個(gè)步驟就可以輕松地實(shí)現(xiàn)圖片上文字的提取,不管是字母、數(shù)字,還是文字,都可以輕松識(shí)別和提取,進(jìn)行復(fù)制粘貼以及搜索等操作。用戶(hù)使用微信時(shí)再也不會(huì)遇到圖片上的電話號(hào)碼、快遞單號(hào)、網(wǎng)址等需要手動(dòng)輸入的窘迫情形。
這一問(wèn)題的解決大大提高了用戶(hù)對(duì)微信的使用體驗(yàn),隨之而來(lái)的是,越來(lái)越多的用戶(hù)對(duì)這項(xiàng)技術(shù)產(chǎn)生興趣。
那么微信是如何做到準(zhǔn)確提取圖片文字的呢?帶著這個(gè)問(wèn)題,筆者對(duì)騰訊的圖片文字提取技術(shù)相關(guān)專(zhuān)利進(jìn)行了檢索和分析。
2、騰訊圖片文字提取技術(shù)專(zhuān)利分析
通過(guò)對(duì)騰訊的圖片文字提取技術(shù)相關(guān)專(zhuān)利檢索發(fā)現(xiàn),騰訊早在微信“圖片大爆炸”功能推出之前就已經(jīng)布局了大量的專(zhuān)利,從2015年至今共布局了36件發(fā)明專(zhuān)利。從專(zhuān)利年申請(qǐng)量方面來(lái)看,近兩年明顯較早期多,從授權(quán)狀況(授權(quán)專(zhuān)利按照申請(qǐng)年統(tǒng)計(jì),若某件專(zhuān)利2016年申請(qǐng),2017年授權(quán),該授權(quán)量統(tǒng)計(jì)計(jì)入2016年)方面來(lái)看,騰訊的圖片文字提取技術(shù)相關(guān)專(zhuān)利大部分處于審查狀態(tài)中,2016年授權(quán)率達(dá)到66.67%。較多相關(guān)技術(shù)的積累和專(zhuān)利布局奠定了如今微信“圖片大爆炸”功能的問(wèn)世。
圖5 騰訊在圖片文字提取技術(shù)領(lǐng)域的專(zhuān)利申請(qǐng)趨勢(shì)及授權(quán)狀況(申請(qǐng)量:件)
從專(zhuān)利布局的角度研判企業(yè)的市場(chǎng)重心,騰訊的36件圖片文字提取相關(guān)專(zhuān)利主要布局在中國(guó)和中國(guó)香港,同時(shí)通過(guò)PCT途徑申請(qǐng)專(zhuān)利。
圖6 騰訊在圖片文字提取技術(shù)領(lǐng)域的專(zhuān)利布局地域分布(單位:件)
從專(zhuān)利技術(shù)分布的角度研究企業(yè)的優(yōu)勢(shì)技術(shù),騰訊的36件專(zhuān)利涉及24項(xiàng)專(zhuān)利技術(shù),主要解決識(shí)別的準(zhǔn)確性、成本、文本內(nèi)容的私密性以及文本識(shí)別過(guò)程中文本的翻譯效率四個(gè)技術(shù)問(wèn)題。
圖7 騰訊在圖片文字提取技術(shù)領(lǐng)域的專(zhuān)利技術(shù)功效分布
1) 騰訊聚焦于如何提高圖片文字識(shí)別準(zhǔn)確率的技術(shù)問(wèn)題,申請(qǐng)了20項(xiàng)專(zhuān)利,主要的技術(shù)手段為通過(guò)文字檢測(cè)技術(shù)手段對(duì)圖片中的文字進(jìn)行檢測(cè)和分析,以及對(duì)文本圖像進(jìn)行圖像優(yōu)化和圖像分割的處理。其中,專(zhuān)利CN108830186B采用圖像優(yōu)化的技術(shù)手段,通過(guò)從文本圖像中選取已知背景區(qū)域,對(duì)于文本圖像中已知背景區(qū)域以外的剩余區(qū)域,采用插值算法分別計(jì)算這些剩余區(qū)域的背景像素值;根據(jù)該區(qū)域的背景像素值確定文本圖像的背景像素值;根據(jù)文本圖像的原始像素值和背景像素值,對(duì)文本圖像進(jìn)行背景減除,得到文本圖像的內(nèi)容圖像。這種技術(shù)可以克服陰影、邊角雜質(zhì)、紙張顏色等對(duì)提取文本內(nèi)容的影響,使得最終得到的內(nèi)容圖像中的文本內(nèi)容更加準(zhǔn)確、清晰。
圖8 專(zhuān)利CN108830186B文字圖像背景減除過(guò)程示意圖
再如專(zhuān)利CN111914825A采用文字檢測(cè)的技術(shù)手段,通過(guò)獲取包括待識(shí)別文字(包括至少一個(gè)字符組〔字符組包括至少一個(gè)字符〕)的待識(shí)別圖像,從待識(shí)別圖像中提取圖像特征,并根據(jù)圖像特征確定待識(shí)別文字所對(duì)應(yīng)候選文字的第一編碼序列以及第一概率;根據(jù)候選文字的第二編碼序列,獲取候選文字對(duì)應(yīng)的第二概率;根據(jù)第一概率和第二概率,從各候選文字的第一編碼序列中確定待識(shí)別文字對(duì)應(yīng)的目標(biāo)編碼序列,并將目標(biāo)編碼序列所表示的候選文字確定為待識(shí)別文字的識(shí)別結(jié)果。如此,可以有效降低字符組識(shí)別出錯(cuò)的幾率,進(jìn)而降低待識(shí)別文字識(shí)別出錯(cuò)的幾率。
圖9 專(zhuān)利CN111914825A中待識(shí)別文字組成示意圖
2) 降低成本方面的專(zhuān)利有1項(xiàng),通過(guò)圖像優(yōu)化的技術(shù)手段實(shí)現(xiàn)降低成本。
專(zhuān)利CN108304839B,生成目標(biāo)圖像對(duì)應(yīng)的單色分量圖像,并根據(jù)每個(gè)單色分量圖像中的角點(diǎn)和端點(diǎn),在目標(biāo)圖像中劃分待識(shí)別區(qū)域,并基于分類(lèi)器,計(jì)算每個(gè)待識(shí)別區(qū)域分別對(duì)應(yīng)的文字識(shí)別概率,并根據(jù)文字識(shí)別概率在待識(shí)別區(qū)域中識(shí)別文字區(qū)域。由于識(shí)別角點(diǎn)和端點(diǎn)的過(guò)程和計(jì)算文字識(shí)別概率的過(guò)程均可以在大多數(shù)用戶(hù)終端中實(shí)現(xiàn),所以無(wú)需部署云端服務(wù)器即可在用戶(hù)終端側(cè)完成對(duì)文字區(qū)域的準(zhǔn)確識(shí)別,從而降低了實(shí)現(xiàn)成本,也可避免與云端服務(wù)器進(jìn)行數(shù)據(jù)傳輸,降低網(wǎng)絡(luò)流量的消耗。
圖10 專(zhuān)利CN108304839B文字圖像單色疊加過(guò)程示意圖
3) 提高文本內(nèi)容私密性方面的專(zhuān)利有2項(xiàng),分別通過(guò)文字檢測(cè)和圖像分割的技術(shù)手段對(duì)圖像文字進(jìn)行分類(lèi),并加以處理以防范敏感信息的泄露,提高私密性。
例如專(zhuān)利CN111062389A,在通過(guò)負(fù)樣本區(qū)域訓(xùn)練得到用于文字識(shí)別的第一模型之后,可以在文本區(qū)域中包含敏感信息時(shí)直接輸出設(shè)定、輸出信息,進(jìn)而從模型層面避免了識(shí)別出文字之后再甄別而造成的敏感信息泄露的風(fēng)險(xiǎn),提高了信息的私密性。
圖11 專(zhuān)利CN111062389A文字識(shí)別敏感信息甄別過(guò)程示意圖
4) 提高翻譯效率方面的專(zhuān)利有1項(xiàng),專(zhuān)利CN112183122A采用文字檢測(cè)的技術(shù)手段對(duì)圖片進(jìn)行文字識(shí)別,通過(guò)對(duì)目標(biāo)圖片進(jìn)行文字識(shí)別,得到的文字信息包括至少兩個(gè)語(yǔ)種的文字(包括語(yǔ)種不為目標(biāo)語(yǔ)種的文字的情況),對(duì)該文字信息中的語(yǔ)種不為目標(biāo)語(yǔ)種的文字進(jìn)行機(jī)器翻譯,得到并顯示目標(biāo)語(yǔ)種的文字信息,達(dá)到了不用手工輸入即可對(duì)外文文字進(jìn)行翻譯的目的,從而實(shí)現(xiàn)了提高外文文字翻譯效率的技術(shù)效果,進(jìn)而解決了由于現(xiàn)有技術(shù)中翻譯軟件需要人工輸入,造成的外文文字翻譯效率低的技術(shù)問(wèn)題。
圖12 專(zhuān)利CN112183122A文字識(shí)別翻譯示意圖
結(jié)語(yǔ)
騰訊在圖片文字提取技術(shù)領(lǐng)域申請(qǐng)了較多的專(zhuān)利,聚焦于如何提高圖片文字識(shí)別準(zhǔn)確率的技術(shù)問(wèn)題,進(jìn)行了較為全面的技術(shù)研發(fā)和專(zhuān)利布局,具有比較明顯的技術(shù)優(yōu)勢(shì)。能在實(shí)現(xiàn)圖片文字提取功能的基礎(chǔ)上保持高的圖片文字識(shí)別準(zhǔn)確率,使得微信的圖片文字識(shí)別功能更貼合用戶(hù)的使用需求和體驗(yàn)。
(原標(biāo)題:探析微信“圖片大爆炸”背后的圖片文字提取技術(shù)和相關(guān)專(zhuān)利)
來(lái)源:IPRdaily中文網(wǎng)(iprdaily.cn)
作者:李文軍
編輯:IPRdaily趙甄 校對(duì):IPRdaily縱橫君
注:原文鏈接:探析微信“圖片大爆炸”背后的圖片文字提取技術(shù)和相關(guān)專(zhuān)利 (點(diǎn)擊標(biāo)題查看原文)
「關(guān)于IPRdaily」
IPRdaily是全球領(lǐng)先的知識(shí)產(chǎn)權(quán)綜合信息服務(wù)提供商,致力于連接全球知識(shí)產(chǎn)權(quán)與科技創(chuàng)新人才。匯聚了來(lái)自于中國(guó)、美國(guó)、歐洲、俄羅斯、以色列、澳大利亞、新加坡、日本、韓國(guó)等15個(gè)國(guó)家和地區(qū)的高科技公司及成長(zhǎng)型科技企業(yè)的管理者及科技研發(fā)或知識(shí)產(chǎn)權(quán)負(fù)責(zé)人,還有來(lái)自政府、律師及代理事務(wù)所、研發(fā)或服務(wù)機(jī)構(gòu)的全球近100萬(wàn)用戶(hù)(國(guó)內(nèi)70余萬(wàn)+海外近30萬(wàn)),2019年全年全網(wǎng)頁(yè)面瀏覽量已經(jīng)突破過(guò)億次傳播。
(英文官網(wǎng):iprdaily.com 中文官網(wǎng):iprdaily.cn)
本文來(lái)自IPRdaily中文網(wǎng)(iprdaily.cn)并經(jīng)IPRdaily.cn中文網(wǎng)編輯。轉(zhuǎn)載此文章須經(jīng)權(quán)利人同意,并附上出處與作者信息。文章不代表IPRdaily.cn立場(chǎng),如若轉(zhuǎn)載,請(qǐng)注明出處:“http://m.jupyterflow.com”
今晚19:30直播!商標(biāo)連續(xù)三年不使用撤銷(xiāo)案件審理的新動(dòng)向與新趨勢(shì)
2022“廣州IP保護(hù)”線上公益課堂——發(fā)明-典型案例告訴你如何運(yùn)用“發(fā)明構(gòu)思不同”證明創(chuàng)造性培訓(xùn)成功舉辦!
文章不錯(cuò),犒勞下辛苦的作者吧