提取游戏文本
1.人工獲取
要求:需要能運行游戲,或者有游戲相關的文件
打開文字相關文件
1.有一些游戲可以直接打開txt文件,或者相關的數據包,用二進制文本編輯軟件打開。
二進制文本編輯器打開文本
2.借助工具
(1)HAT,ppsspp工具
(2)MisakaHookFinder使用方法:使用hook,無視游戲文本字體,直接讀內存拿文本
(3)agthV5.4:自動提取游戲文本,配合CP2TRAN可與翻譯軟件聯合實現自動翻譯
(4)office 2003:幾乎純手動
2.圖像識別
1.調用API
(1)使用tesseract-ocr和調用百度API實現對圖片文字的識別:無圖片預處理,直接識別圖片中的文字
(2)還是使用tesseract-ocr,用pytesseract實現image-to-string
(3)對剪切板中的圖片進行識別,調用百度API:還是需要手動截取對話框還是tesseract-ocr,無預處理,直接識別
(4)使用 tesseract && JTessBoxEditor 執行手寫體圖片樣本訓練:使用tesseract,jTessBoxEditor 和 java ,需要Java虛擬機,截取的樣本圖片中最好不要有10個以上的字符樣本。
(5)Python識別圖片指定區域文字內容:
(6)利用baidu的api和python的GUI實現通用文字識別功能
(7)tesseract-ocr和百度API
API總結:
- Pillow ,pytesseract,tesseract-ocr
優點:本地識別圖片
缺點:占用CPU,準確率低 - baiduOCR api
優點:快
缺點:收費
百度文字識別費用信息
2.形態學操作法
具體方法見手把手教你深度學習文字識別(文字檢測篇:基于MSER, CTPN, SegLink, EAST等方法)
主要思想為:通過利用計算機視覺中的圖像形態學操作,包括膨脹、腐蝕基本操作,即可實現簡單場景的文字檢測,例如檢測屏幕截圖中的文字區域位置。
總結
- 上一篇: 测试,测试
- 下一篇: Mosaix首席科学家劳逆:弱监督学习是