日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

这款神秘的移动端OCR引擎,如何做到“所见即所得”?

發(fā)布時(shí)間:2024/8/23 编程问答 41 豆豆
生活随笔 收集整理的這篇文章主要介紹了 这款神秘的移动端OCR引擎,如何做到“所见即所得”? 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

阿里妹導(dǎo)讀:隨著深度學(xué)習(xí),尤其是CNN和RNN等技術(shù)的飛速發(fā)展,文字識(shí)別技術(shù)(OCR)近幾年得到了迅速的提升。與此同時(shí),在智能化終端的大趨勢下,本地化智能識(shí)別憑借更高效快捷的體驗(yàn)以及高度的隱私保護(hù)和零流量消耗等優(yōu)勢備受矚目和親睞,越來越多的應(yīng)用算法開始傾向終端化完成,OCR也不例外。接下來,螞蟻金服的算法專家亦弦為我們剖析這個(gè)輕量而精準(zhǔn)的移動(dòng)端OCR引擎——xNN-OCR。

背景及概述

移動(dòng)端OCR的優(yōu)勢

受算法效率和算法模型大小的限制和約束,目前大部分的OCR端上應(yīng)用都是上傳圖片到服務(wù)端識(shí)別再將識(shí)別結(jié)果回傳到客戶端。雖然滿足了部分業(yè)務(wù)需求,但一方面,對(duì)一些實(shí)效性要求較高的業(yè)務(wù)場景來說用戶體驗(yàn)無疑是一個(gè)巨大的損失,尤其是弱網(wǎng)環(huán)境下。另一方面,在面臨大促業(yè)務(wù)并發(fā)請(qǐng)求量過大的情況下,服務(wù)端不得不采用降級(jí)方案,而如果端上也具備識(shí)別能力的話,便可以極大地減少服務(wù)端的壓力。此外,涉及到身份證、銀行卡等重要私人證件采用OCR進(jìn)行信息提取的時(shí)候,端上“識(shí)完即焚”這種方式,對(duì)這種敏感數(shù)據(jù)和隱私保護(hù)來說是天然的堡壘。因此,具備終端OCR識(shí)別能力有著極其重要的業(yè)務(wù)價(jià)值和意義。

移動(dòng)端OCR的難點(diǎn)

OCR采用深度學(xué)習(xí)技術(shù)使得識(shí)別精度在特定的場景下面有了一定的保障,但模型大小和速度問題在端上依然是一大難題。目前大部分的后臺(tái)OCR模型通常幾十M或者上百M(fèi),可能比整個(gè)App安裝包都要大,是不可能直接放到移動(dòng)端的,而如果走實(shí)時(shí)下載的辦法,模型過大也會(huì)造成下載失敗率高、等待時(shí)間長、App占用空間大、流量消耗大等問題。另外,現(xiàn)在很多OCR算法在云端GPU上運(yùn)行尚且需要幾十到上百毫秒,要在手機(jī)CPU上保持較高的運(yùn)行效率是一個(gè)極大的挑戰(zhàn)。

我們做了什么?——xNN-OCR

xNN-OCR是專門針對(duì)移動(dòng)端本地識(shí)別研發(fā)的的高精度、高效率、輕體量文字識(shí)別引擎,目前支持場景數(shù)字、場景英文、場景漢字以及特殊符號(hào)的識(shí)別。xNN-OCR針對(duì)移動(dòng)端開發(fā)和優(yōu)化了一套基于深度學(xué)習(xí)的文字檢測和文字行識(shí)別算法框架,結(jié)合xNN的網(wǎng)絡(luò)壓縮和加速能力,檢測和識(shí)別模型可以壓縮到數(shù)百K級(jí)別,在中端及以上手機(jī)CPU上達(dá)到實(shí)時(shí)(最高15FPS),可結(jié)合“掃一掃”的模式在視頻流中做到所見即所得。

移動(dòng)端OCR識(shí)別技術(shù)

移動(dòng)端OCR技術(shù)主要分為二個(gè)方面,一是OCR算法框架的研究和優(yōu)化,主要目標(biāo)是探索高精度且輕量級(jí)的檢測和識(shí)別框架,確保在壓縮之前模型的大小和速度在一個(gè)適當(dāng)?shù)姆秶詢?nèi),二是利用xNN對(duì)模型進(jìn)行剪枝和量化壓縮到實(shí)際應(yīng)用需要的大小。下圖是我們以銀行卡檢測和識(shí)別模型為例子展示整個(gè)壓縮流程精度和模型的變化,其他OCR場景識(shí)別均是類似流程。

銀行卡檢測/識(shí)別模型壓縮

輕量級(jí)OCR算法框架的探索

目前大部分的移動(dòng)端OCR技術(shù)都是以傳統(tǒng)算法為主,在復(fù)雜自然場景下識(shí)別率相對(duì)較低,而基于深度學(xué)習(xí)的方案可以很好的解決這一類問題,識(shí)別率和穩(wěn)定性遠(yuǎn)超傳統(tǒng)算法。目前主流的深度學(xué)習(xí)OCR主要分為文字行檢測和行識(shí)別兩大塊,下面我們分別介紹下:

文字行檢測

在檢測方面,我們將物體檢測的Region-CNN框架與FCN的圖像分割框架融合在一起,保留了FCN的簡單框架以適應(yīng)端上對(duì)模型尺寸和預(yù)測時(shí)間的要求,同時(shí)又在模型中加入了目標(biāo)檢測的位置回歸模塊,實(shí)現(xiàn)了對(duì)任意形狀文本的檢測能力。在基于FCN的整體框架中,為了在精簡模型的同時(shí)不降低檢測效果,我們采用了各種模型精簡結(jié)構(gòu)(例如Separable Convolution、Group Convolution + Channel Shuffle等,如下圖),模型的尺寸雖然不斷減小,精度并未隨之下降,在滿足端上對(duì)模型的苛刻限制的同時(shí)取得了較好的檢測效果。


Group Convolution + Channel Shuffle

文字行識(shí)別

在識(shí)別方面,我們?cè)贑RNN(CNN+LSTM+CTC)框架基礎(chǔ)上進(jìn)行了優(yōu)化改進(jìn),在Densenet的基礎(chǔ)上結(jié)合Multiscale Feature、Channel-wise Attention等技術(shù)設(shè)計(jì)出了一套專門用于移動(dòng)端文字行識(shí)別的輕量級(jí)CNN網(wǎng)絡(luò),同時(shí)對(duì)LSTM內(nèi)部參數(shù)采用Project技術(shù)、全連接層采用SVD、BTD等降維技術(shù)進(jìn)一步減少參數(shù)數(shù)量(如下圖),在ICDAR2013數(shù)據(jù)集(NOFINETUNE)上,模型大小下降約50%的前提下識(shí)別率高出CRNN近4個(gè)點(diǎn),這一改進(jìn)優(yōu)化點(diǎn)為上端打下了強(qiáng)有力的基礎(chǔ)。

LSTM Projection

xNN模型壓縮

目前我們的OCR算法模型都是基于tensorflow開發(fā)的,xNN已經(jīng)增加了對(duì)TFLite模型的支持,并且在性能上已經(jīng)遠(yuǎn)超TFLite。xNN對(duì)于我們OCR算法的模型壓縮比在10-20倍之間,不同的場景稍微有些區(qū)別,與此同時(shí),壓縮后模型的精度基本保持不變。由于OCR是一個(gè)較復(fù)雜的識(shí)別任務(wù),算法模型通常都非常大,并且目前大部分的后臺(tái)OCR算法都是在GPU上運(yùn)行,要想在端上運(yùn)行,除了需要在算法層次上做很多優(yōu)化外,更需要xNN強(qiáng)大的模型壓縮和加速能力。

移動(dòng)端OCR應(yīng)用

OCR技術(shù)是信息提取和場景理解極其重要的技術(shù)手段之一,應(yīng)用領(lǐng)域非常廣泛。目前移動(dòng)端本地OCR應(yīng)用從技術(shù)角度可以分為2大類,一類是印刷體文字識(shí)別,主要是針對(duì)字體變化不大、背景單一的場景,例如身份證識(shí)別、名片識(shí)別、車牌識(shí)別等等,另一類是場景類文字識(shí)別,主要是針對(duì)字體變化大且背景復(fù)雜的場景,例如銀行卡識(shí)別、燃?xì)獗?水表識(shí)別、門頭名識(shí)別、場景英文識(shí)別(AR翻譯)等等,這兩類場景中后者識(shí)別難度較大,面臨的挑戰(zhàn)性更多。我們將xNN-OCR用于這些場景并根據(jù)場景的特點(diǎn)做了各種優(yōu)化,取得了一系列的成果,特別是在復(fù)雜環(huán)境下面識(shí)別依然可以保持高效和精準(zhǔn),具體的數(shù)據(jù)如下表。下面簡介了幾個(gè)比較重要和常見的應(yīng)用場景。

OCR部分業(yè)務(wù)場景數(shù)據(jù)指標(biāo)

  • 銀行卡識(shí)別:銀行卡識(shí)別是金融類行業(yè)非常重要的一項(xiàng)技術(shù),是場景數(shù)字類識(shí)別的一個(gè)典型代表。目前大部分銀行卡識(shí)別均是采用端上識(shí)別的方案,因?yàn)槎松献R(shí)別不僅能帶來更好更快的體驗(yàn),同時(shí)由于不需要數(shù)據(jù)上傳也能一定程度保護(hù)用戶的隱私數(shù)據(jù)。基于xNN-OCR開發(fā)的銀行卡識(shí)別在中端手機(jī)上耗時(shí)<300ms,大部分銀行卡都是秒識(shí)別。此外,在面對(duì)復(fù)雜背景以及復(fù)雜環(huán)境干擾的時(shí)候,xNN-OCR在識(shí)別速度和精度上均展現(xiàn)了非常明顯的優(yōu)勢。
  • 燃?xì)獗碜R(shí)別:通過OCR識(shí)別燃?xì)獗碜x數(shù)是目前燃?xì)庾灾碇械囊豁?xiàng)關(guān)鍵性技術(shù),相比于傳統(tǒng)上門抄表,一方面可以節(jié)省很大的人力物力,避免上門抄表帶來的麻煩,另外一方面也可以減少漏抄、誤抄等問題。目前已經(jīng)有很多燃?xì)夤疽呀?jīng)開始應(yīng)用這一項(xiàng)技術(shù),但實(shí)際應(yīng)用過程中,由于燃?xì)獗淼奈恢糜袝r(shí)候比較隱蔽,拍攝角度和光照難以控制,通常一般的用戶拍照上傳到后臺(tái)識(shí)別的圖片質(zhì)量都比較差,識(shí)別率偏低。xNN-OCR在端上完成整套識(shí)別流程,通過識(shí)別反饋引導(dǎo)用戶拍攝,可較大程度的提升識(shí)別率,在與一家燃?xì)夤镜暮献髦?#xff0c;我們測試識(shí)別率可以達(dá)到93%+,模型尺寸可保持在500k以內(nèi),識(shí)別成功耗時(shí)<1s。
  • 車牌/VIN碼識(shí)別:車牌/VIN碼識(shí)別是傳統(tǒng)印刷體類文字應(yīng)用的一個(gè)經(jīng)典場景,在移動(dòng)警務(wù)、車輛維修定損等日常場景中起著非常重要的作用。由于車牌/VIN碼識(shí)別在實(shí)際應(yīng)用中可能同時(shí)需要,為了避免交互流程上的繁瑣以及端上2套算法模型過大,xNN-OCR將車牌和VIN碼這2個(gè)場景識(shí)別合二為一,模型尺寸依然<500k,在中端手機(jī)上識(shí)別成功耗時(shí)<1s,并且對(duì)光照、模糊、拍攝角度等干擾因素不敏感,同時(shí)由于端上可以反復(fù)識(shí)別尋求置信度最高的結(jié)果作為最終結(jié)果,所以相對(duì)于后臺(tái)識(shí)別“一錘子買賣”而言,在識(shí)別精度上會(huì)更勝一籌。
  • 身份證識(shí)別:身份證識(shí)別也是金融類行業(yè)非常重要的一項(xiàng)技術(shù),在實(shí)名認(rèn)證、安全審核等場景起著非常重要的作用,但由于中文漢字字庫較大,導(dǎo)致模型較大,目前大部分的身份證識(shí)別均采用的是服務(wù)端識(shí)別,但由于端側(cè)質(zhì)量難以控制,往往會(huì)導(dǎo)致體驗(yàn)和精度上面難以均衡。xNN-OCR在大字庫中文識(shí)別方面也作出了一些突破,整體模型小于1M,在端側(cè)用單字識(shí)別信度控制識(shí)別精度,避免了對(duì)圖片質(zhì)量判斷的依賴,通過多幀融合提升識(shí)別效率,單次識(shí)別中端手機(jī)上<600ms,識(shí)別成功<2s。

展望

xNN-OCR目前在端上已經(jīng)能較好的識(shí)別場景數(shù)字、英文以及部分漢字,無論是模型大小、速度、準(zhǔn)確度均已達(dá)到工業(yè)應(yīng)用的水平,并且全面超過基于傳統(tǒng)算法識(shí)別的OCR端上應(yīng)用,在多個(gè)實(shí)際應(yīng)用項(xiàng)目中對(duì)比得以驗(yàn)證。另外,我們?cè)诙松先?000多類漢字識(shí)別上也做出了一些成果,在不久的將來會(huì)分享出來,歡迎有興趣的同學(xué)來一起研究和探討。

我們堅(jiān)信,隨著深度學(xué)習(xí)的移動(dòng)端化逐步增強(qiáng)和移動(dòng)硬件設(shè)備的逐步升級(jí),終端智能化的應(yīng)用與業(yè)務(wù)將會(huì)越來越多,未來xNN-OCR必將會(huì)給OCR相關(guān)的業(yè)務(wù)帶來更深遠(yuǎn)的影響和更高的價(jià)值。


原文鏈接
本文為云棲社區(qū)原創(chuàng)內(nèi)容,未經(jīng)允許不得轉(zhuǎn)載。

總結(jié)

以上是生活随笔為你收集整理的这款神秘的移动端OCR引擎,如何做到“所见即所得”?的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。