分享《日汉双解学习词典(第二版)》 pdf及ocr结果

修改了下之前拉鲁斯的切图程序,现在可以切分词条了,还加入了图片和表格的处理:

2 个赞

补充一个完整Gemini识别的文本(不含附录),页码确认正常,序号做了简要修复

日汉双解学习词典_gemini.txt (9.9 MB)

1 个赞

只要没什么生僻难字,Gemini 2.5 Pro 识别复杂混合文本的质量还是很不错的,但怎么写prompt,需要反复测试研究。

我想了想,从方法论上讲,只要图像清楚,其实用 Gemini 两次、三次识别同一文本,然后不同批次对比改错,优于用其他OCR引擎的识别结果来对比改错。Gemini对这种文本,并没有什么真的不认识的字符,它的识别错误多出于内在的随机性,但既然是随机性,多次识别,不大容易出现刚好屡次都错在同一字符上。还有,同一引擎的输出格式有一致性,都用半角标点等,不会像异种OCR引擎对比文本差异那么大,花花绿绿,校改起来也方便。

用这种方式操作的缺点主要是成本高,时间耗费长。

相同版本的 OCR 引擎,识别结果通常是相同的, 比如 PP-OCRv3 在同一设备上每次结果都相同,也就是同一 OCR 引擎无法识别的字符,大模型介入后也无法识别,多次调用反而会强化同一个错误,无法通过投票机制纠正。格式不统一,可以对文本识别结果二次处理,但是无法识别的字符,不换引擎没法解决。

gemini随机性还是比较高的,特别在注音和特殊格式上面

1 个赞

这就是我不喜欢用大模型校对的原因,之前我一直建议用传统模型按行校对,现在的引擎文本识别率很高了,投票可以直接解决很多问题,大模型介入之后引入了随机性,反而增加了工作量,但我现在兴趣已经转移了,所以都是理论仅供参考。

你说的是专门的OCR引擎,视觉LLM我实践下来发现不同批次识别的变数挺大的。字符本身没法识别,那只有换引擎,不过我在这里说的是本来有能力识别,却被搞错的情况,大模型犯这种错误颇有一些。

我们现在搞的文本,都是传统的ocr引擎没法妥善处理的,混合多语种,格式复杂,有特殊符号……合合、夸克、百度高精度等全试过,都也提供了识别结果,很多错误,要是能用够用,它们速度快,又便宜,何乐而不为呢?动用Gemini 2.5 Pro这种,又慢又贵,那是迫不得已。

1 个赞

能否用您提供的方法做一下上海外语教育出版社引进的小学馆《日本语新辞典》,本站有pdf版,清晰度可以。这本辞典的特殊符号比较少。但收词量比较大。也适合作为学习辞典使用。

可以试试但这本书问题更大,定义了5个级别的层级结构,一堆加了样式的序号,很多都没有unicode对应字符。还有大字号表示常用词,和一堆灰底的辨析内容,识别样式的可能性很低,基本只能靠后期修正。

1 个赞

测试了前25页,果然序号有不少问题。

日本语新辞典_1-25.txt (182.8 KB)

感谢您测试。我看了一下,效果挺好。关于大字号常用词,个人觉得影响不大。还有灰底辨析内容,如果识别不了可以放弃灰底部分。毕竟辨析专栏不影响查词。此外这本辞典的发音表记比较特殊,可能确实识别不了重音的位置。

就我个人的使用情况来看,对于不同语言、不同专业领域、不同排版的OCR,各个LLM的表现各有优劣,没有哪个绝对占优。

比如古籍OCR,有现代电子排版后的横排竖排、有铅印时代的横排竖排、有木刻的宋元明清版图书,通常经专业训练过的模型OCR结果要比通用LLM要好。

不知道现在国内AI界还有多少人相信未来几年就能实现AGI的?

AGI 不了解,古籍我也没弄过。

统计了一下词条,不算后面的附录,正文条目有46200条,对比 @amob 提供的第8版数据48233条少了2033条,不过第8版数据是包括古语,和歌,俳句和英文缩略语的这些加起来估计在1000条左右,实际两个版本应该差1000条左右数据,另外有的词条新版会加义项。

导入了校对工具(还没导入其他参考文本):

2 个赞

校对工具更新,现在支持直接用mdx作为候选来源,但是mdx的数据和词典用的符号特别是英文的位置有差异,需要调整。

2 个赞

文件也上传了一份到zlib:

1 个赞