探析微信“圖片大爆炸”背后的圖片文字提取技術和相關專利 ?

#本文僅代表作者觀點，不代表IPRdaily立場，未經作者許可，禁止轉載#

“一文帶你了解微信是如何做到準確提取圖片文字的?！?/strong>

來源：IPRdaily中文網（iprdaily.cn）

作者：李文軍

最近，微信在安卓8.0.24正式版更新了新功能，名為“圖片大爆炸”。該功能通過長按圖片，可以提取到圖片上的文字進行后續(xù)的復制粘貼以及搜索等操作，有效地解決了以往用戶在使用過程中經常遇到的電話號碼、快遞單號、網址等信息以圖片的形式得到而又無法直接使用、需要手動輸入的窘迫情形。

圖1 微信對話場景

1、使用微信“圖片大爆炸”功能進行圖片文字提取

微信圖片文字提取功能的操作及界面如圖2-圖4所示：

點開需要提取文字的圖片，長按屏幕上對應該圖片的位置，即可出現(xiàn)文字提取操作選擇界面；

圖2 長按圖片導出“提取文字”操作界面

在彈出對話框中選擇“提取文字”操作圖標，即可在屏幕圖片上的文字進行識別或進一步地進行文字涂抹選擇；

圖3 進行圖片文字提取

選擇并用手指涂抹想要使用的字段即可供用戶輕松的進行“呼叫”、“添加到通訊錄”、“復制”、“搜一搜”、“轉發(fā)”以及“收藏”等操作。

圖4 提取出文字支持進一步操作

通過簡單的幾個步驟就可以輕松地實現(xiàn)圖片上文字的提取，不管是字母、數(shù)字，還是文字，都可以輕松識別和提取，進行復制粘貼以及搜索等操作。用戶使用微信時再也不會遇到圖片上的電話號碼、快遞單號、網址等需要手動輸入的窘迫情形。

這一問題的解決大大提高了用戶對微信的使用體驗，隨之而來的是，越來越多的用戶對這項技術產生興趣。

那么微信是如何做到準確提取圖片文字的呢？帶著這個問題，筆者對騰訊的圖片文字提取技術相關專利進行了檢索和分析。

2、騰訊圖片文字提取技術專利分析

通過對騰訊的圖片文字提取技術相關專利檢索發(fā)現(xiàn)，騰訊早在微信“圖片大爆炸”功能推出之前就已經布局了大量的專利，從2015年至今共布局了36件發(fā)明專利。從專利年申請量方面來看，近兩年明顯較早期多，從授權狀況（授權專利按照申請年統(tǒng)計，若某件專利2016年申請，2017年授權，該授權量統(tǒng)計計入2016年）方面來看，騰訊的圖片文字提取技術相關專利大部分處于審查狀態(tài)中，2016年授權率達到66.67%。較多相關技術的積累和專利布局奠定了如今微信“圖片大爆炸”功能的問世。

圖5 騰訊在圖片文字提取技術領域的專利申請趨勢及授權狀況（申請量:件）

從專利布局的角度研判企業(yè)的市場重心，騰訊的36件圖片文字提取相關專利主要布局在中國和中國香港，同時通過PCT途徑申請專利。

圖6 騰訊在圖片文字提取技術領域的專利布局地域分布（單位：件）

從專利技術分布的角度研究企業(yè)的優(yōu)勢技術，騰訊的36件專利涉及24項專利技術，主要解決識別的準確性、成本、文本內容的私密性以及文本識別過程中文本的翻譯效率四個技術問題。

圖7 騰訊在圖片文字提取技術領域的專利技術功效分布

1) 騰訊聚焦于如何提高圖片文字識別準確率的技術問題，申請了20項專利，主要的技術手段為通過文字檢測技術手段對圖片中的文字進行檢測和分析，以及對文本圖像進行圖像優(yōu)化和圖像分割的處理。其中，專利CN108830186B采用圖像優(yōu)化的技術手段，通過從文本圖像中選取已知背景區(qū)域，對于文本圖像中已知背景區(qū)域以外的剩余區(qū)域，采用插值算法分別計算這些剩余區(qū)域的背景像素值；根據(jù)該區(qū)域的背景像素值確定文本圖像的背景像素值；根據(jù)文本圖像的原始像素值和背景像素值，對文本圖像進行背景減除，得到文本圖像的內容圖像。這種技術可以克服陰影、邊角雜質、紙張顏色等對提取文本內容的影響，使得最終得到的內容圖像中的文本內容更加準確、清晰。

圖8 專利CN108830186B文字圖像背景減除過程示意圖

再如專利CN111914825A采用文字檢測的技術手段，通過獲取包括待識別文字（包括至少一個字符組〔字符組包括至少一個字符〕）的待識別圖像，從待識別圖像中提取圖像特征，并根據(jù)圖像特征確定待識別文字所對應候選文字的第一編碼序列以及第一概率；根據(jù)候選文字的第二編碼序列，獲取候選文字對應的第二概率；根據(jù)第一概率和第二概率，從各候選文字的第一編碼序列中確定待識別文字對應的目標編碼序列，并將目標編碼序列所表示的候選文字確定為待識別文字的識別結果。如此，可以有效降低字符組識別出錯的幾率，進而降低待識別文字識別出錯的幾率。

圖9 專利CN111914825A中待識別文字組成示意圖

2) 降低成本方面的專利有1項，通過圖像優(yōu)化的技術手段實現(xiàn)降低成本。

專利CN108304839B，生成目標圖像對應的單色分量圖像，并根據(jù)每個單色分量圖像中的角點和端點，在目標圖像中劃分待識別區(qū)域，并基于分類器，計算每個待識別區(qū)域分別對應的文字識別概率，并根據(jù)文字識別概率在待識別區(qū)域中識別文字區(qū)域。由于識別角點和端點的過程和計算文字識別概率的過程均可以在大多數(shù)用戶終端中實現(xiàn)，所以無需部署云端服務器即可在用戶終端側完成對文字區(qū)域的準確識別，從而降低了實現(xiàn)成本，也可避免與云端服務器進行數(shù)據(jù)傳輸，降低網絡流量的消耗。

圖10 專利CN108304839B文字圖像單色疊加過程示意圖

3) 提高文本內容私密性方面的專利有2項，分別通過文字檢測和圖像分割的技術手段對圖像文字進行分類，并加以處理以防范敏感信息的泄露，提高私密性。

例如專利CN111062389A，在通過負樣本區(qū)域訓練得到用于文字識別的第一模型之后，可以在文本區(qū)域中包含敏感信息時直接輸出設定、輸出信息，進而從模型層面避免了識別出文字之后再甄別而造成的敏感信息泄露的風險，提高了信息的私密性。

圖11 專利CN111062389A文字識別敏感信息甄別過程示意圖

4) 提高翻譯效率方面的專利有1項，專利CN112183122A采用文字檢測的技術手段對圖片進行文字識別，通過對目標圖片進行文字識別，得到的文字信息包括至少兩個語種的文字（包括語種不為目標語種的文字的情況），對該文字信息中的語種不為目標語種的文字進行機器翻譯，得到并顯示目標語種的文字信息，達到了不用手工輸入即可對外文文字進行翻譯的目的，從而實現(xiàn)了提高外文文字翻譯效率的技術效果，進而解決了由于現(xiàn)有技術中翻譯軟件需要人工輸入，造成的外文文字翻譯效率低的技術問題。

圖12 專利CN112183122A文字識別翻譯示意圖

結語

騰訊在圖片文字提取技術領域申請了較多的專利，聚焦于如何提高圖片文字識別準確率的技術問題，進行了較為全面的技術研發(fā)和專利布局，具有比較明顯的技術優(yōu)勢。能在實現(xiàn)圖片文字提取功能的基礎上保持高的圖片文字識別準確率，使得微信的圖片文字識別功能更貼合用戶的使用需求和體驗。

（原標題：探析微信“圖片大爆炸”背后的圖片文字提取技術和相關專利）

來源：IPRdaily中文網（iprdaily.cn）

作者：李文軍

編輯：IPRdaily趙甄校對：IPRdaily縱橫君

注：原文鏈接：探析微信“圖片大爆炸”背后的圖片文字提取技術和相關專利（點擊標題查看原文）

「關于IPRdaily」

IPRdaily是全球領先的知識產權綜合信息服務提供商，致力于連接全球知識產權與科技創(chuàng)新人才。匯聚了來自于中國、美國、歐洲、俄羅斯、以色列、澳大利亞、新加坡、日本、韓國等15個國家和地區(qū)的高科技公司及成長型科技企業(yè)的管理者及科技研發(fā)或知識產權負責人，還有來自政府、律師及代理事務所、研發(fā)或服務機構的全球近100萬用戶（國內70余萬+海外近30萬），2019年全年全網頁面瀏覽量已經突破過億次傳播。

（英文官網：iprdaily.com 中文官網：iprdaily.cn）

本文來自IPRdaily中文網（iprdaily.cn）并經IPRdaily.cn中文網編輯。轉載此文章須經權利人同意，并附上出處與作者信息。文章不代表IPRdaily.cn立場，如若轉載，請注明出處：“http://m.jupyterflow.com”