日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

myocr

發布時間:2025/3/21 编程问答 15 豆豆
生活随笔 收集整理的這篇文章主要介紹了 myocr 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
ocr測試

安裝
1)安裝imageMagick.????? 該庫用于圖像格式轉換
2)安裝liblept.????????? 該庫不需要顯示的圖像轉換, 直接支持多種圖片格式
3)安裝tesseract.??????? 圖片文字內容提取

以上三庫在編譯過程中均 ./configure --enable-shared --enable-static


幫助:
1)http://www.huangshifu.net/2010/01/29/ocr-stuff.html
2)tessercat bug:
??? http://www.win.tue.nl/~aeb/linux/ocr/tesseract.html
??? patch5 可以解決某些png導致core掉的問題。
3)安裝 liblept。 安裝過程中出現z_compress什么的未定義, 在網上查詢得到其定義值為-1
??? #define z_compress,,,? (-1)


開發:
1)imageMagick支持多線程。 根據需求, 程序是基于convert.c修改而成的。
2)tesseract不支持多線程。(官方有說明。 其中用到全局、靜態變量)。 程序基于

重新configure tesseract, make, make install 得到其庫和config_auto.h

然后根據自己的需要修改是否定義HAVE_LIBTIFF或者HAVE_LIBLEPT

然后測試二者的效果和性能






性能和效果影響:
1) tesseract的詞庫對性能影響很大。 圖片中帶中文的, 使用英文詞庫比中文詞庫好許多。 當然中文提不出來。 (但數字能提出來, 我只需要數字)
2) scale 和 crop 和灰度等對性能和準確率有影響。
char *argv[15] = {"presudo", "-compress", "none",? "-colorspace", "Gray",
143???????????????????????? "-gravity", "SouthWest", "-crop", "70x70%"};

144???? //????????????????? "-scale",? "150%" };



初步結論, 使用imageMagick轉換到tiff再提取數字, 比直接使用支持多抓奶哥格式的lept要稍微快一些。? 但虛存占用略大。




error/constitute.c/ReadImage/532

出現此錯誤, 是ImageMagick的delegate的問題。 可以使用convert -list configure查看DELEGATE, 然后安裝對應的圖形lib、再重新安裝ImageMagick



========================================================================

#!/bin/bash
#http://hi.baidu.com/zzticzh/blog/item/b363a8cc64ff4e0401e9289d.html




#生成box文件
tesseract myeng.tif myeng -l chi_sim batch.nochop makebox

##tesseract myeng.tif myeng -l myeng batch.nochop makebox

#vi classify/ocrfeatures.cpp tess_fscanf -> fscnaf
#得到tr txt log文件。 注意查看log文件
tesseract myeng.tif myeng nobatch box.train

#得到unicharset文件
unicharset_extractor myeng.box

#得到inttemp pffmtable myeng.unicharset Microfeat
mftraining -U unicharset -O myeng.unicharset myeng.tr
mv -f inttemp myeng.inttemp
mv -f Microfeat myeng.Microfeat
mv -f pffmtable myeng.pffmtable

#多個的結果聚集
##mftraining -U unicharset -O myeng.unicharset myeng.tr

#得到normproto
cntraining myeng.tr
mv -f normproto myeng.normproto

touch normproto.unicharambigs

combine_tessdata myeng.







==========================================================================

ocr效果參數

char *argv[32] = {"presudo", "-compress", "none", "-trim", "-gravity", "NorthWest", "-crop", "100x100+0+0", "+repage",
154???????????????????????? "-normalize", "-level", "25%",
155???????????????????????? "-sigmoidal-contrast", "10,50%", "-monochrome",
156???????????????????????? NULL};

不壓縮、去邊緣空白 切割 、顏色歸一、對比度增強?? 再轉為二值化


=============

安裝圖形庫 png gif tiff jpeg


總結

以上是生活随笔為你收集整理的myocr的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。