日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

光学字符识别的 5 个最佳免费数据集

發布時間:2023/12/29 编程问答 30 豆豆
生活随笔 收集整理的這篇文章主要介紹了 光学字符识别的 5 个最佳免费数据集 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

光學字符識別技術,即OCR。OCR是指電子設備,例如掃描儀或相機檢查紙上打印的字符,通過檢測暗、亮的模式確定其形狀,然后用字符識別的方法將形狀翻譯成計算機文字的過程。

OCR的作用是檢測圖像中的文字區域以及識別文字內容,它在很多場合可替代鍵盤完成高速文字錄入任務。

OCR技術的應用場景十分廣泛

OCR技術的應用場景十分廣泛,以下是幾個應用較為成熟的領域:

· 遠程身份認證:結合OCR和人臉識別技術,實現用戶證件信息的自動錄入,并完成用戶身份驗證。應用于金融保險、社保、O2O等行業,有效控制業務風險。

· 內容審核與監管:自動識別圖片、視頻中的文字內容,及時發現涉黃、涉暴、政治敏感、惡意廣告等不合規內容,規避業務風險,大幅節約人工審核成本。

·紙質文檔票據電子化:通過OCR實現紙質文檔資料、票據、表格的自動識別和錄入,減少人工錄入成本,提高輸入效率。

圖片來自網絡

自然環境下的OCR要面臨、要解決的問題還是相當多的,例如背景復雜、加蓋印章干擾疊加、圖像對比度低、污跡和磨損、字體種類繁多、印刷受墨多寡等情況。

基于深度學習的技術而言,訓練數據的數量很大程度上影響了技術效果,提升訓練數據的數量和質量成為解決上述問題的根本途徑。

為了提升OCR識別和轉寫的準確度,不是少平臺開發了OCR標注和轉寫數據集,以下是五個常用的OCR數據庫網絡資源。

·NIST數據庫

美國國家科學研究院出版了3600位作者的筆跡,其中包括80萬個字符圖像。

網址:

https://catalog.data.gov/dataset/nist-handprinted-forms-and-characters-nist-special-database-19

·MNIST數據庫

原始NIST數據的子集,具有60,000個手寫數字示例的訓練集。

網址:

https://yann.lecun.com/exdb/mnist/

·阿拉伯語印刷文本

包含113,284個單詞的詞典,并使用10種阿拉伯字體。

網址:

https://diuf.unifr.ch/main/diva/APTI/

·Stanford OCR

包含由Stanford發布的MIT Spoken Language Systems Group收集的手寫單詞數據集。

網址:

https://ai.stanford.edu/~btaskar/ocr/

·Chars74K數據

包含英文和卡納達語數字的74K圖像。

網址:https://www.ee.surrey.ac.uk/CVSSP/demos/chars74k/

沉淀十余年數據處理經驗,數據堂在句法標注、事件標注等方面也積累了自己OCR標注和轉寫方面獨特的數據優勢,以下是數據堂研制的OCR數據:

歡迎聯系客服小堂獲取樣例數據 ~

總結

以上是生活随笔為你收集整理的光学字符识别的 5 个最佳免费数据集的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。