【GdOcrTool】即指即译,OCR取词工具

现在能找到的提供屏幕取词SDK的商业软件开发商,不算自研的话,只有两家,一个是欧路用的WordCaptureX,另一个是灵格斯用的GetWord,GetWord的开发还在继续,但不支持OCR的方式,WordCaptureX确实使用的Tesseract,但WordCaptureX的维护已经停止了,使用的Tesseract版本很低。

WordCaptureX集成了Hook以及OCR两种取词方式。Hook可以直接读取文本,这个速度最快,图片的话,只能OCR,实际取词的时候是两种方式一起来,哪个方式速度快就用哪个结果。

图片里的文本识别,我原本猜测大家识别速度都差不多,但实际体验,WordCaptureX会快一些,猜测可能OCR引擎版本问题,低版本或许更轻量速度更快训练结果更小,去WordCaptureX的官网看了下发现确实如此。WordCaptureX使用的Tesseract版本号是V3.01,看日志是2010年的版本,英文训练包大小是1.8M,[链接] 。楼主使用的Capture2Text用的Tesseract版本号是V4.0.1,2018年出的,使用了新的识别引擎,英文训练包Fast精简版本大小是3.9M,正常版本的大小是22.4M。

识别速度除了引擎版本以及训练包大小的问题,还有识别图片前,对图片的预处理也会有影响,如果对图片做灰度处理,去干扰,缩小识别范围通常能大幅提高识别的速度和准确度。各家手段不同,不好评价。