日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

计算机视觉对扫描文件分类 OCR

發(fā)布時間:2023/11/29 编程问答 60 豆豆
生活随笔 收集整理的這篇文章主要介紹了 计算机视觉对扫描文件分类 OCR 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

通過計算機(jī)視覺對掃描文件分類

一種解決掃描文檔分類問題的深度學(xué)習(xí)方法

在數(shù)字經(jīng)濟(jì)時代, 銀行、保險、治理、醫(yī)療、法律等部門仍在處理各種手寫票據(jù)和掃描文件。在業(yè)務(wù)生命周期的后期, 手動維護(hù)和分類這些文檔變得非常繁瑣。

對這些非機(jī)密文檔進(jìn)行簡單而有意義的自動化處理,將使維護(hù)和利用信息變得容易的多,并顯著減少手工工作。

本案例研究的目的是開發(fā)一個基于深度學(xué)習(xí)的解決方案,可以自動分類的文件

Data:
在這個案例研究中,我們將使用RVL-CDIP (Ryerson Vision Lab Complex Document Information Processing)數(shù)據(jù)集,該數(shù)據(jù)集包含16個類中的400,000張灰度圖像,每個類包含25,000張圖像。有32萬張訓(xùn)練圖像、4萬張驗(yàn)證圖像和4萬張測試圖像。圖像的大小,使他們的最大尺寸不超過1000像素。這個數(shù)據(jù)集的大小超過200 GB。

Business-ML問題映射:
我們可以將業(yè)務(wù)問題映射為一個多類分類問題。當(dāng)前的數(shù)據(jù)集中有16個類,我們需要根據(jù)被掃描文檔的像素值來預(yù)測文檔的類,這使得問題更加困難。但是等等,**為什么我們不能使用OCR來提取文本并應(yīng)用NLP技術(shù)呢?**是的,我們對這個想法也很興奮,但是低質(zhì)量的掃描導(dǎo)致了文本提取的低質(zhì)量。在實(shí)際的業(yè)務(wù)場景中,我們也無法控制掃描的質(zhì)量,因此依賴OCR的模型可能會在適當(dāng)?shù)念A(yù)處理后泛化能力較差。

KPI和業(yè)務(wù)約束:
數(shù)據(jù)集相當(dāng)平衡。因此,我們選擇準(zhǔn)確性作為主要指標(biāo),微平均F1分?jǐn)?shù)作為次要指標(biāo)來懲罰分類錯誤的數(shù)據(jù)點(diǎn)。我們還使用了混淆度量來驗(yàn)證模型的性能。有一個中等的延遲需求,沒有特定的可解釋性需求。

我們能從文檔的像素強(qiáng)度和大小中得到任何信息嗎?

讓我們嘗試使用箱形圖來可視化文檔的平均像素強(qiáng)度和大小

從box plot中我們可以觀察到,某些類型的掃描文檔的大小與其他類型的非常不同,但是也存在重疊。例如,類13和類9的文件大小差別很大,但是類9的大小與類4和類6、類7重疊。

我們可以觀察到75%的案例中,class 4的平均像素強(qiáng)度在160-230像素之間。但是對于大約50%的情況,它也與類6的平均像素值重疊。對于其他類,平均像素值重疊。

分析方法

為了解決這個問題,我們對擴(kuò)充數(shù)據(jù)進(jìn)行卷積神經(jīng)網(wǎng)絡(luò)(CNN)訓(xùn)練。我們嘗試在有和沒有數(shù)據(jù)擴(kuò)充的情況下訓(xùn)練模型,兩種結(jié)果進(jìn)行比較。


太棒了!但是如何確定網(wǎng)絡(luò)架構(gòu)呢?你是如何訓(xùn)練網(wǎng)絡(luò)的,因?yàn)閿?shù)據(jù)不能一次放入內(nèi)存?

從零開始訓(xùn)練神經(jīng)網(wǎng)絡(luò)需要大量的時間和集中計算資源,為了避免這種情況,我們采用了轉(zhuǎn)移學(xué)習(xí)。我們從在ImageNet數(shù)據(jù)集上訓(xùn)練的預(yù)訓(xùn)練網(wǎng)絡(luò)的權(quán)值開始,然后在我們的數(shù)據(jù)集上重新訓(xùn)練。針對這類問題的當(dāng)前SOTA模型使用域內(nèi)和域內(nèi)轉(zhuǎn)移學(xué)習(xí),其中圖像被分成四個部分:頁眉、頁腳、左身體和右身體。首先利用預(yù)先訓(xùn)練好的VGG16模型對整個圖像(域內(nèi))進(jìn)行訓(xùn)練,然后利用該模型對部分圖像(域內(nèi))進(jìn)行訓(xùn)練。

在這個實(shí)驗(yàn)中,我們采用了一種稍微不同的方法。我們沒有使用VGG16進(jìn)行域內(nèi)轉(zhuǎn)移學(xué)習(xí),而是訓(xùn)練了兩個并行模型VGG16和InceptionResNetV2,并使用它們的堆棧作為我們的最終模型。我們的假設(shè)是,由于這兩種模型的架構(gòu)不同,它們會學(xué)習(xí)圖像的不同方面,將它們疊加起來會得到很好的泛化效果。但是我們?nèi)绾芜x擇這些模型呢?這基本上來自交叉驗(yàn)證的結(jié)果。我們嘗試了各種網(wǎng)絡(luò)架構(gòu),如VGG16、VGG19、DenseNet、ResNet、InceptionNet,并選出了最好的兩個。

我們使用keras的ImageDataGenerator類對訓(xùn)練數(shù)據(jù)進(jìn)行預(yù)處理和加載,而不是在內(nèi)存中加載整個數(shù)據(jù)。


好的, 但是如何處理超參數(shù)呢?

對于任何CNN,超參數(shù)是:學(xué)習(xí)率,池大小,網(wǎng)絡(luò)大小,批量大小,優(yōu)化器的選擇,正則化,輸入大小等。

學(xué)習(xí)率對神經(jīng)網(wǎng)絡(luò)的收斂性有重要影響。在深度學(xué)習(xí)問題中使用的損失函數(shù)是非凸的,這意味著在存在多個局部極小值和鞍點(diǎn)的情況下,尋找全局極小值不是一件容易的事情。如果學(xué)習(xí)率太低,它會慢慢收斂;如果學(xué)習(xí)率太高,它會開始振蕩。在這個案例研究中,我們使用了一種叫做“循環(huán)學(xué)習(xí)速率”的技術(shù),其目的是訓(xùn)練神經(jīng)網(wǎng)絡(luò),使每個訓(xùn)練批次的學(xué)習(xí)速率以循環(huán)方式變化。


但為什么會這樣呢? 在CLR中,我們在一個閾值內(nèi)改變學(xué)習(xí)率。周期性的高學(xué)習(xí)率有助于克服它的鞍點(diǎn)或局部極小值。

對于其他超參數(shù),我們開發(fā)了自定義實(shí)用程序函數(shù)來檢查哪種配置工作得更好。假設(shè)10個epoch之后,準(zhǔn)確率是47%我們將使用此模型作為測試基線,并使用實(shí)用工具函數(shù)檢查哪個配置集(即batch_size/optimizer/learning_rate)將在以后的epochs帶來更高的準(zhǔn)確性

結(jié)果

我們使用VGG16模型獲得了90.7%的準(zhǔn)確率,使用InceptionResNetV2獲得了88%的準(zhǔn)確率。上述兩種模型的比例疊加模型訓(xùn)練正確率為97%,測試正確率為91.45%。


you can find the full implementation here.

Citation:

  • A. W. Harley, A. Ufkes, K. G. Derpanis, “Evaluation of Deep Convolutional Nets for Document Image Classification and Retrieval,” in ICDAR, 2015.
  • https://arxiv.org/abs/1506.01186
  • https://www.researchgate.net/publication/332948719_Segmentation_of_Scanned_Documents_Using_Deep-Learning_Approach
  • 總結(jié)

    以上是生活随笔為你收集整理的计算机视觉对扫描文件分类 OCR的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。