當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

计算机视觉对扫描文件分类 OCR

發(fā)布時間：2023/11/29 编程问答 60 豆豆

生活随笔收集整理的這篇文章主要介紹了计算机视觉对扫描文件分类 OCR 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

通過計算機(jī)視覺對掃描文件分類

一種解決掃描文檔分類問題的深度學(xué)習(xí)方法

在數(shù)字經(jīng)濟(jì)時代，銀行、保險、治理、醫(yī)療、法律等部門仍在處理各種手寫票據(jù)和掃描文件。在業(yè)務(wù)生命周期的后期，手動維護(hù)和分類這些文檔變得非常繁瑣。

對這些非機(jī)密文檔進(jìn)行簡單而有意義的自動化處理，將使維護(hù)和利用信息變得容易的多，并顯著減少手工工作。

本案例研究的目的是開發(fā)一個基于深度學(xué)習(xí)的解決方案，可以自動分類的文件

Data:
在這個案例研究中，我們將使用RVL-CDIP (Ryerson Vision Lab Complex Document Information Processing)數(shù)據(jù)集，該數(shù)據(jù)集包含16個類中的400,000張灰度圖像，每個類包含25,000張圖像。有32萬張訓(xùn)練圖像、4萬張驗(yàn)證圖像和4萬張測試圖像。圖像的大小，使他們的最大尺寸不超過1000像素。這個數(shù)據(jù)集的大小超過200 GB。

Business-ML問題映射:
我們可以將業(yè)務(wù)問題映射為一個多類分類問題。當(dāng)前的數(shù)據(jù)集中有16個類，我們需要根據(jù)被掃描文檔的像素值來預(yù)測文檔的類，這使得問題更加困難。但是等等，**為什么我們不能使用OCR來提取文本并應(yīng)用NLP技術(shù)呢?**是的，我們對這個想法也很興奮，但是低質(zhì)量的掃描導(dǎo)致了文本提取的低質(zhì)量。在實(shí)際的業(yè)務(wù)場景中，我們也無法控制掃描的質(zhì)量，因此依賴OCR的模型可能會在適當(dāng)?shù)念A(yù)處理后泛化能力較差。

KPI和業(yè)務(wù)約束:
數(shù)據(jù)集相當(dāng)平衡。因此，我們選擇準(zhǔn)確性作為主要指標(biāo)，微平均F1分?jǐn)?shù)作為次要指標(biāo)來懲罰分類錯誤的數(shù)據(jù)點(diǎn)。我們還使用了混淆度量來驗(yàn)證模型的性能。有一個中等的延遲需求，沒有特定的可解釋性需求。

我們能從文檔的像素強(qiáng)度和大小中得到任何信息嗎?

讓我們嘗試使用箱形圖來可視化文檔的平均像素強(qiáng)度和大小

從box plot中我們可以觀察到，某些類型的掃描文檔的大小與其他類型的非常不同，但是也存在重疊。例如，類13和類9的文件大小差別很大，但是類9的大小與類4和類6、類7重疊。

我們可以觀察到75%的案例中，class 4的平均像素強(qiáng)度在160-230像素之間。但是對于大約50%的情況，它也與類6的平均像素值重疊。對于其他類，平均像素值重疊。

分析方法

為了解決這個問題，我們對擴(kuò)充數(shù)據(jù)進(jìn)行卷積神經(jīng)網(wǎng)絡(luò)(CNN)訓(xùn)練。我們嘗試在有和沒有數(shù)據(jù)擴(kuò)充的情況下訓(xùn)練模型，兩種結(jié)果進(jìn)行比較。

太棒了!但是如何確定網(wǎng)絡(luò)架構(gòu)呢?你是如何訓(xùn)練網(wǎng)絡(luò)的，因?yàn)閿?shù)據(jù)不能一次放入內(nèi)存?

從零開始訓(xùn)練神經(jīng)網(wǎng)絡(luò)需要大量的時間和集中計算資源，為了避免這種情況，我們采用了轉(zhuǎn)移學(xué)習(xí)。我們從在ImageNet數(shù)據(jù)集上訓(xùn)練的預(yù)訓(xùn)練網(wǎng)絡(luò)的權(quán)值開始，然后在我們的數(shù)據(jù)集上重新訓(xùn)練。針對這類問題的當(dāng)前SOTA模型使用域內(nèi)和域內(nèi)轉(zhuǎn)移學(xué)習(xí)，其中圖像被分成四個部分:頁眉、頁腳、左身體和右身體。首先利用預(yù)先訓(xùn)練好的VGG16模型對整個圖像(域內(nèi))進(jìn)行訓(xùn)練，然后利用該模型對部分圖像(域內(nèi))進(jìn)行訓(xùn)練。

在這個實(shí)驗(yàn)中，我們采用了一種稍微不同的方法。我們沒有使用VGG16進(jìn)行域內(nèi)轉(zhuǎn)移學(xué)習(xí)，而是訓(xùn)練了兩個并行模型VGG16和InceptionResNetV2，并使用它們的堆棧作為我們的最終模型。我們的假設(shè)是，由于這兩種模型的架構(gòu)不同，它們會學(xué)習(xí)圖像的不同方面，將它們疊加起來會得到很好的泛化效果。但是我們?nèi)绾芜x擇這些模型呢?這基本上來自交叉驗(yàn)證的結(jié)果。我們嘗試了各種網(wǎng)絡(luò)架構(gòu)，如VGG16、VGG19、DenseNet、ResNet、InceptionNet，并選出了最好的兩個。

我們使用keras的ImageDataGenerator類對訓(xùn)練數(shù)據(jù)進(jìn)行預(yù)處理和加載，而不是在內(nèi)存中加載整個數(shù)據(jù)。

好的, 但是如何處理超參數(shù)呢?

對于任何CNN，超參數(shù)是:學(xué)習(xí)率，池大小，網(wǎng)絡(luò)大小，批量大小，優(yōu)化器的選擇，正則化，輸入大小等。

學(xué)習(xí)率對神經(jīng)網(wǎng)絡(luò)的收斂性有重要影響。在深度學(xué)習(xí)問題中使用的損失函數(shù)是非凸的，這意味著在存在多個局部極小值和鞍點(diǎn)的情況下，尋找全局極小值不是一件容易的事情。如果學(xué)習(xí)率太低，它會慢慢收斂;如果學(xué)習(xí)率太高，它會開始振蕩。在這個案例研究中，我們使用了一種叫做“循環(huán)學(xué)習(xí)速率”的技術(shù)，其目的是訓(xùn)練神經(jīng)網(wǎng)絡(luò)，使每個訓(xùn)練批次的學(xué)習(xí)速率以循環(huán)方式變化。

但為什么會這樣呢? 在CLR中，我們在一個閾值內(nèi)改變學(xué)習(xí)率。周期性的高學(xué)習(xí)率有助于克服它的鞍點(diǎn)或局部極小值。

對于其他超參數(shù)，我們開發(fā)了自定義實(shí)用程序函數(shù)來檢查哪種配置工作得更好。假設(shè)10個epoch之后，準(zhǔn)確率是47%我們將使用此模型作為測試基線，并使用實(shí)用工具函數(shù)檢查哪個配置集(即batch_size/optimizer/learning_rate)將在以后的epochs帶來更高的準(zhǔn)確性

結(jié)果

我們使用VGG16模型獲得了90.7%的準(zhǔn)確率，使用InceptionResNetV2獲得了88%的準(zhǔn)確率。上述兩種模型的比例疊加模型訓(xùn)練正確率為97%，測試正確率為91.45%。

you can find the full implementation here.

Citation:

A. W. Harley, A. Ufkes, K. G. Derpanis, “Evaluation of Deep Convolutional Nets for Document Image Classification and Retrieval,” in ICDAR, 2015.

https://arxiv.org/abs/1506.01186

https://www.researchgate.net/publication/332948719_Segmentation_of_Scanned_Documents_Using_Deep-Learning_Approach

總結(jié)

以上是生活随笔為你收集整理的计算机视觉对扫描文件分类 OCR的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：孕期梦到生了个女儿就会生女孩吗
下一篇：机器学习实践二 -多分类和神经网络