Abbyy Finereader 15,16和几个ocr软件的ocr效果对比


用Adobe acrobat 2021,abbyy finereader 15,万兴pdf7.6.8.5031,白描网页版分别对一本具有代表性的PDF书籍进行了OCR,并比较效果,结论是,abbyy finereader 15是最佳选择。

1,所用到的软件

Adobe Acrobat 2021(AA),

Abbyy FineReader 15,(AFR),

万兴PDFelement 7.6.8

白描网页版

Filelocator pro(FLP),

Araxis Merge,

2,用《德语语法表解》进行OCR和效果对比

(1)该书PDF格式共计210页,内容德语汉语混排,德语居多,约八九成,汉语约一到两成,极少的英语。扫描而成,页面清晰度较差,没有灰度。

(2)用abbyy进行OCR,选择多语,包括汉语,德语,英语,及一些辅助如数字等,OCR的速度很快。OCR后保存为一个文件。另外,进入页面校对,修改了几个单词,另存为一个文件,用于效果比对。得到2个文件。

(3)在Adobe Acrobat 2021中,分别OCR三次,存为3个文件,进行效果比对。

只选择德语进行OCR,存为第一个文件。在德语OCR后,再选择汉语进行第二遍OCR,然后保存为第2个文件。只选汉语OCR后保存为第三个文件。得到3个文件。

以上共计6个文件,大小对比很明显。Acrobat选择汉语进行OCR后文件体积增大一倍,增加德语再作一次OCR,体积再增加一倍。

而Abbyy的OCR后的文件,体积反倒减小了。
(4)OCR的效果的比对,

用了三个方法,分别是,

-在Araxis Merge中,进行文字型PDF的内容比对。

-在Acrobat 2021中进行文件比较。

-用Filelocator Pro进行检索比较。

最终,

(1)在Acrobat中,选择德语进行OCR,只对部分的汉语进行了OCR;只选德语,情况类似。在汉语的OCR中,才对全部的汉语进行了OCR。这点在Araxis Merge和FLP(FileLocatorPro)中得到印证。
(2)abbyy的多语种OCR得到的文件,不管是汉语,德语,识别效果都远胜于acrobat的。在FLP中,用一些单词或字母进行检索,选择专家模式。比如检索“Vater”,可以看到abbyy的识别文件和acrobat的仅仅德语或先德语后汉语的三个文件,命中18次,而仅仅汉语的,只有14次。

3,万兴pdf和白描

万兴PDF在OCR该书时失败。

用白描软件测试OCR,用其网页版,限制PDF为50页,遂选该书前40页。识别效果很不错,比acrobat还略高,但不能保留格式,如表格等。该白描软件用于局部是可以的。

结论,abbyy finereader 15。


在5月份对比了AFR15与其他几个常见ocr工具的ocr性能。这次得到AFR16,遂对比了一下15和16的ocr性能。
结论是:16比15的ocr性能有明显提升,值得升级。

1,怎么对比ocr性能
刚好有本书野菜图谱要ocr,该书恰好有代表性,代表了需要ocr的书中扫描质量较差的。一般的,需要ocr的书的扫描质量比它要好。该书89年印刷的32k的287页,文字黑白,有彩色照片和黑白表格等,显示在2004年制作为pdf,可能是读秀流出的。
原pdf大小8mb,标记为A。用16做了ocr,标记为B,文件大小几乎相同。再用15做了ocr,存时有2个选项,存为searchable pdf,标记为C,10MB;存为pdf,标记为D,文件大小是9MB。得到3个ocr的PDF文件。

2,具体过程
与之前方法完全一样
(1)首先对比了一下C和D的差异。
在acrobat 2021中对比文本,结果是相同。
见附图1,

(2)在AM中对比,发现仅有一处不同。见图2。
查看了一下具体页,是字262页,其中C识别为“牛膝的”,D未识别出,仍当作图片。见图3。

(3)用FLP,对A,B,C,D进行检索关键字。
搜“牛膝”,FLP告警,说A未见文字,真是好样的软件!B命中18,C命中14,D命中13。详细看了一下就知道了,ocr性能上,B明显要比C好,差了3次。而C和D相差一处,被FLP发现,AM也发现,而acrobat未发现。见图4。

(4)再检索一个字吧,“车前”,B命中18,C和D都是9,9处是相同的。差距更大了。见图5。

足够得出结论是,ocr性能,16明显优于15。
另外,在acrobat中,对比文本的结果有失误,它的对比能力不可信。
ocr速度上,16比15要明显快一点。不过,考虑到总时间不长,因此这点可忽略。

16是,ABBYY-FineReader-PDF-Corporate-16.0.14.7295-Portable。绿色的,可能就是sandyd大神的封包,注册应当是TCCS大神搞的。感谢两位普罗米修斯!

—end— - -结尾 - -
依次是截图1-5

3 个赞