用Adobe acrobat 2021,abbyy finereader 15,万兴pdf7.6.8.5031,白描网页版分别对一本具有代表性的PDF书籍进行了OCR,并比较效果,结论是,abbyy finereader 15是最佳选择。
1,所用到的软件
Adobe Acrobat 2021(AA),
Abbyy FineReader 15,(AFR),
万兴PDFelement 7.6.8
白描网页版
Filelocator pro(FLP),
Araxis Merge,
2,用《德语语法表解》进行OCR和效果对比
(1)该书PDF格式共计210页,内容德语汉语混排,德语居多,约八九成,汉语约一到两成,极少的英语。扫描而成,页面清晰度较差,没有灰度。
(2)用abbyy进行OCR,选择多语,包括汉语,德语,英语,及一些辅助如数字等,OCR的速度很快。OCR后保存为一个文件。另外,进入页面校对,修改了几个单词,另存为一个文件,用于效果比对。得到2个文件。
(3)在Adobe Acrobat 2021中,分别OCR三次,存为3个文件,进行效果比对。
只选择德语进行OCR,存为第一个文件。在德语OCR后,再选择汉语进行第二遍OCR,然后保存为第2个文件。只选汉语OCR后保存为第三个文件。得到3个文件。
以上共计6个文件,大小对比很明显。Acrobat选择汉语进行OCR后文件体积增大一倍,增加德语再作一次OCR,体积再增加一倍。
而Abbyy的OCR后的文件,体积反倒减小了。
(4)OCR的效果的比对,
用了三个方法,分别是,
-在Araxis Merge中,进行文字型PDF的内容比对。
-在Acrobat 2021中进行文件比较。
-用Filelocator Pro进行检索比较。
最终,
(1)在Acrobat中,选择德语进行OCR,只对部分的汉语进行了OCR;只选德语,情况类似。在汉语的OCR中,才对全部的汉语进行了OCR。这点在Araxis Merge和FLP(FileLocatorPro)中得到印证。
(2)abbyy的多语种OCR得到的文件,不管是汉语,德语,识别效果都远胜于acrobat的。在FLP中,用一些单词或字母进行检索,选择专家模式。比如检索“Vater”,可以看到abbyy的识别文件和acrobat的仅仅德语或先德语后汉语的三个文件,命中18次,而仅仅汉语的,只有14次。
3,万兴pdf和白描
万兴PDF在OCR该书时失败。
用白描软件测试OCR,用其网页版,限制PDF为50页,遂选该书前40页。识别效果很不错,比acrobat还略高,但不能保留格式,如表格等。该白描软件用于局部是可以的。
结论,abbyy finereader 15。
在5月份对比了AFR15与其他几个常见ocr工具的ocr性能。这次得到AFR16,遂对比了一下15和16的ocr性能。
结论是:16比15的ocr性能有明显提升,值得升级。
1,怎么对比ocr性能
刚好有本书野菜图谱要ocr,该书恰好有代表性,代表了需要ocr的书中扫描质量较差的。一般的,需要ocr的书的扫描质量比它要好。该书89年印刷的32k的287页,文字黑白,有彩色照片和黑白表格等,显示在2004年制作为pdf,可能是读秀流出的。
原pdf大小8mb,标记为A。用16做了ocr,标记为B,文件大小几乎相同。再用15做了ocr,存时有2个选项,存为searchable pdf,标记为C,10MB;存为pdf,标记为D,文件大小是9MB。得到3个ocr的PDF文件。
2,具体过程
与之前方法完全一样
(1)首先对比了一下C和D的差异。
在acrobat 2021中对比文本,结果是相同。
见附图1,
(2)在AM中对比,发现仅有一处不同。见图2。
查看了一下具体页,是字262页,其中C识别为“牛膝的”,D未识别出,仍当作图片。见图3。
(3)用FLP,对A,B,C,D进行检索关键字。
搜“牛膝”,FLP告警,说A未见文字,真是好样的软件!B命中18,C命中14,D命中13。详细看了一下就知道了,ocr性能上,B明显要比C好,差了3次。而C和D相差一处,被FLP发现,AM也发现,而acrobat未发现。见图4。
(4)再检索一个字吧,“车前”,B命中18,C和D都是9,9处是相同的。差距更大了。见图5。
足够得出结论是,ocr性能,16明显优于15。
另外,在acrobat中,对比文本的结果有失误,它的对比能力不可信。
ocr速度上,16比15要明显快一点。不过,考虑到总时间不长,因此这点可忽略。
16是,ABBYY-FineReader-PDF-Corporate-16.0.14.7295-Portable。绿色的,可能就是sandyd大神的封包,注册应当是TCCS大神搞的。感谢两位普罗米修斯!
—end— - -结尾 - -
依次是截图1-5