日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Tesseract-OCR 字符识别-样书训练

發(fā)布時(shí)間:2025/3/21 编程问答 23 豆豆
生活随笔 收集整理的這篇文章主要介紹了 Tesseract-OCR 字符识别-样书训练 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

原文出處:http://www.myexception.cn/mobile/1119147.html

訓(xùn)練樣本


關(guān)于如何訓(xùn)練樣本,Tesseract-OCR官網(wǎng)有詳細(xì)的介紹http://code.google.com/p/tesseract-ocr/wiki/TrainingTesseract3。這里通過一個(gè)簡單的例子來介紹一下如何進(jìn)行樣本訓(xùn)練。

1.下載工具jTessBoxEditor.?http://sourceforge.net/projects/vietocr/files/jTessBoxEditor/,這個(gè)工具是用來訓(xùn)練樣本用的,由于該工具是用JAVA開發(fā)的,需要安裝JAVA虛擬機(jī)才能運(yùn)行。

2. 獲取樣本圖像。用畫圖工具繪制了5張0-9的文樣本圖像(當(dāng)然樣本越多越好),如下圖所示:

??

??


3.合并樣本圖像。運(yùn)行jTessBoxEditor工具,在點(diǎn)擊菜單欄中Tools--->Merge TIFF。在彈出的對(duì)話框中選擇樣本圖像(按Shift選擇多張),合并成num.font.exp0.tif文件。4.生成Box File文件。打開命令行,執(zhí)行命令:

tesseract.exe num.font.exp0.tif num.font.exp0 batch.nochop makebox

? 生成的BOX文件為num.font.exp0.box,BOX文件為Tessercat識(shí)別出的文字和其坐標(biāo)。

注:Make Box File的命令格式為:

tesseract [lang].[fontname].exp[num].tif [lang].[fontname].exp[num] batch.nochop makebox

其中l(wèi)ang為語言名稱,fontname為字體名稱,num為序號(hào),可以隨便定義。

5.文字校正。運(yùn)行jTessBoxEditor工具,打開num.font.exp0.tif文件(必須將上一步生成的.box和.tif樣本文件放在同一目錄),如下圖所示??梢钥闯鲇行┳址R(shí)別的不正確,可以通過該工具手動(dòng)對(duì)每張圖片中識(shí)別錯(cuò)誤的字符進(jìn)行校正。校正完成后保存即可。




6.定義字體特征文件。Tesseract-OCR3.01以上的版本在訓(xùn)練之前需要?jiǎng)?chuàng)建一個(gè)名稱為font_properties的字體特征文件。

font_properties不含有BOM頭,文件內(nèi)容格式如下:

<fontname> <italic> <bold> <fixed> <serif> <fraktur>

其中fontname為字體名稱,必須與[lang].[fontname].exp[num].box中的名稱保持一致。<italic> 、<bold> 、<fixed> 、<serif>、 <fraktur>的取值為1或0,表示字體是否具有這些屬性。

這里在樣本圖片所在目錄下創(chuàng)建一個(gè)名稱為font_properties的文件,用記事本打開,輸入以下下內(nèi)容:

font 0 0 0 0 0

這里全取值為0,表示字體不是粗體、斜體等等。

7.生成語言文件。在樣本圖片所在目錄下創(chuàng)建一個(gè)批處理文件,輸入如下內(nèi)容。

rem 執(zhí)行改批處理前先要目錄下創(chuàng)建font_properties文件echo Run Tesseract for Training.. tesseract.exe num.font.exp0.tif num.font.exp0 nobatch box.trainecho Compute the Character Set.. unicharset_extractor.exe num.font.exp0.box mftraining -F font_properties -U unicharset -O num.unicharset num.font.exp0.trecho Clustering.. cntraining.exe num.font.exp0.trecho Rename Files.. rename normproto num.normproto rename inttemp num.inttemp rename pffmtable num.pffmtable rename shapetable num.shapetable echo Create Tessdata.. combine_tessdata.exe num.

將批處理通過命令行執(zhí)行。執(zhí)行后的結(jié)果如下:


需確認(rèn)打印結(jié)果中的Offset 1、3、4、5、13這些項(xiàng)不是-1。這樣,一個(gè)新的語言文件就生成了。

num.traineddata便是最終生成的語言文件,將生成的num.traineddata拷貝到Tesseract-OCR-->tessdata目錄下。可以用它來進(jìn)行字符識(shí)別了。


?

總結(jié)

以上是生活随笔為你收集整理的Tesseract-OCR 字符识别-样书训练的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 欧美成人a视频 | 天堂在线网 | 亚洲人高潮女人毛茸茸 | 久久久欧美精品sm网站 | 国产鲁鲁视频在线观看免费 | 久久精品无码一区 | 黑人糟蹋人妻hd中文字幕 | 精品一区二区三区无码视频 | 欧美理伦少妇2做爰 | 毛片内射久久久一区 | 亚洲一区二区成人 | 亚洲精品久久夜色撩人男男小说 | 亚洲成人激情在线 | 黄色大片91| 大尺度av在线 | 精品人妻aV中文字幕乱码色欲 | 免费福利视频在线观看 | 欧美在线小视频 | 日日干,夜夜操 | 精品动漫av| 91国内精品野花午夜精品 | 日本打白嫩屁股视频 | 亚洲成年网站 | www.在线观看麻豆 | 91入囗| 波多野吉衣一区二区三区 | 美女光屁屁露胸胸 | 日韩精品在线观看视频 | 97福利在线 | 狠狠操综合网 | 黄色a级片网站 | 欧美精品久 | 国产精品乱码久久久久久久久 | 成人免费xxxxx在线观看 | 欧美午夜精品久久久久久人妖 | 国产成人午夜精品无码区久久 | 午夜免费高清视频 | 国产又粗又猛又黄又爽视频 | 青青国产| 国产无码精品一区二区 | 日韩美女一区 | 国语av在线| 三年中国片在线高清观看 | 天堂av在线网 | 欧美黑人性受xxxx精品 | 日本精品一区在线观看 | 中文字幕一二三四区 | 深夜福利网 | 亚洲天堂成人av | 毛片毛片毛片毛片毛片毛片毛片毛片毛片毛片 | 在线观看污网站 | 久福利 | 午夜免费视频观看 | 国产免费叼嘿网站免费 | 婷婷婷色| 国产又爽又黄无码无遮挡在线观看 | 人人看人人插 | 亚洲自拍偷拍一区 | 欧美成片vs欧美 | 日本成人高清 | 国产女18毛片多18精品 | 牛牛精品一区二区 | 以女性视角写的高h爽文 | 视频一区二区三区精品 | 男女做爰猛烈吃奶啪啪喷水网站 | 国产av电影一区二区三区 | 久久久精品一区二区三区 | 亚洲国产黄 | 99伊人 | 天天射夜夜骑 | 污视频在线观看免费 | 九七精品 | 中文字幕在线观看1 | 男人添女人囗交视频 | 久久久视 | 国产精品人八做人人女人a级刘 | 天堂网在线看 | h视频网站在线观看 | 一区av在线 | 乳色吐息在线观看 | 欧美日韩精品一区二区在线观看 | 激情综合网激情 | 国产人妻大战黑人20p | 精品人妻一区二区三区麻豆91 | 国产高清在线一区 | 91国模少妇一区二区三区 | 亚洲日本视频 | 七仙女欲春2一级裸体片 | 香蕉视频免费在线观看 | 婷婷亚洲五月 | 日韩福利在线 | 一级特黄免费视频 | 亚洲资源网站 | 影音先锋资源av | 91精品国产色综合久久不8 | 综合久久久久久久久久久 | 日韩图色 | 国产高清一区 | 国产xxxx在线观看 |