Tesseract——OCR图像识别 入门篇
近期leader給了我一個(gè)任務(wù),讓我研究圖像識(shí)別,從我們項(xiàng)目的screenshot中識(shí)別文字信息,so我開始了學(xué)習(xí)。與大家分享下。
我看到眼下OCR技術(shù)有非常多,最基本的是Asprise OCR,Tesseract OCR和Java OCR。
Asprise OCR速度非常快,Java實(shí)現(xiàn)非常easy,可是它是商業(yè)的。要收費(fèi)的。免費(fèi)版每次都要彈出對(duì)話框。是個(gè)非常麻煩的事情。
Tesseract OCR是C++的。要使用cmd命令的,速度也非???#xff0c;質(zhì)量也非常好。當(dāng)然Java也是能夠使用的。
Java OCR是純Java的。效率也不錯(cuò)。
今天先記錄下Tesseract吧,興許再補(bǔ)充
1. 首先從官網(wǎng)上下載壓縮包,最新版本號(hào)是Tesseract 3.03,之前的版本號(hào)能夠從這里下載.
2. 解壓下載好的壓縮包到本地文件夾。
3. 打開cmd窗體。進(jìn)入到tesseract文件夾下。然后就能夠開始我們的測(cè)試之旅啦
?1)選擇好你所要識(shí)別的圖片。并確定你所要輸出的文件,然后輸入下列命令:
? ?tesseract letter.png 1
? "letter.png": 須要識(shí)別的圖片
? ?"1": 輸出的文件 1.txt
?
?2) 我們已經(jīng)把圖片中的信息解析出來啦。
總結(jié)
以上是生活随笔為你收集整理的Tesseract——OCR图像识别 入门篇的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: MySQL 5.7 for Window
- 下一篇: MongoDB空间分配