分享《日汉双解学习词典（第二版）》 pdf及ocr结果

wynick27 · 2025 年10 月 10 日 05:09

修改了下之前拉鲁斯的切图程序，现在可以切分词条了，还加入了图片和表格的处理：

wynick27 · 2025 年10 月 14 日 02:17

补充一个完整Gemini识别的文本（不含附录），页码确认正常，序号做了简要修复

mixivivo · 2025 年10 月 14 日 02:25

只要没什么生僻难字，Gemini 2.5 Pro 识别复杂混合文本的质量还是很不错的，但怎么写prompt，需要反复测试研究。

mixivivo · 2025 年10 月 14 日 02:40

我想了想，从方法论上讲，只要图像清楚，其实用 Gemini 两次、三次识别同一文本，然后不同批次对比改错，优于用其他OCR引擎的识别结果来对比改错。Gemini对这种文本，并没有什么真的不认识的字符，它的识别错误多出于内在的随机性，但既然是随机性，多次识别，不大容易出现刚好屡次都错在同一字符上。还有，同一引擎的输出格式有一致性，都用半角标点等，不会像异种OCR引擎对比文本差异那么大，花花绿绿，校改起来也方便。

用这种方式操作的缺点主要是成本高，时间耗费长。

last_idol · 2025 年10 月 14 日 03:16

相同版本的 OCR 引擎，识别结果通常是相同的，比如 PP-OCRv3 在同一设备上每次结果都相同，也就是同一 OCR 引擎无法识别的字符，大模型介入后也无法识别，多次调用反而会强化同一个错误，无法通过投票机制纠正。格式不统一，可以对文本识别结果二次处理，但是无法识别的字符，不换引擎没法解决。

wynick27 · 2025 年10 月 14 日 03:24

gemini随机性还是比较高的，特别在注音和特殊格式上面

last_idol · 2025 年10 月 14 日 03:43

这就是我不喜欢用大模型校对的原因，之前我一直建议用传统模型按行校对，现在的引擎文本识别率很高了，投票可以直接解决很多问题，大模型介入之后引入了随机性，反而增加了工作量，但我现在兴趣已经转移了，所以都是理论仅供参考。

mixivivo · 2025 年10 月 14 日 03:52

你说的是专门的OCR引擎，视觉LLM我实践下来发现不同批次识别的变数挺大的。字符本身没法识别，那只有换引擎，不过我在这里说的是本来有能力识别，却被搞错的情况，大模型犯这种错误颇有一些。

mixivivo · 2025 年10 月 14 日 04:03

我们现在搞的文本，都是传统的ocr引擎没法妥善处理的，混合多语种，格式复杂，有特殊符号……合合、夸克、百度高精度等全试过，都也提供了识别结果，很多错误，要是能用够用，它们速度快，又便宜，何乐而不为呢？动用Gemini 2.5 Pro这种，又慢又贵，那是迫不得已。

lee_tc · 2025 年10 月 14 日 04:25

能否用您提供的方法做一下上海外语教育出版社引进的小学馆《日本语新辞典》，本站有pdf版，清晰度可以。这本辞典的特殊符号比较少。但收词量比较大。也适合作为学习辞典使用。

wynick27 · 2025 年10 月 14 日 06:18

可以试试但这本书问题更大，定义了5个级别的层级结构，一堆加了样式的序号，很多都没有unicode对应字符。还有大字号表示常用词，和一堆灰底的辨析内容，识别样式的可能性很低，基本只能靠后期修正。

wynick27 · 2025 年10 月 14 日 08:23

测试了前25页，果然序号有不少问题。

日本语新辞典_1-25.txt (182.8 KB)

lee_tc · 2025 年10 月 15 日 04:10

感谢您测试。我看了一下，效果挺好。关于大字号常用词，个人觉得影响不大。还有灰底辨析内容，如果识别不了可以放弃灰底部分。毕竟辨析专栏不影响查词。此外这本辞典的发音表记比较特殊，可能确实识别不了重音的位置。

endnote · 2025 年10 月 15 日 04:31

就我个人的使用情况来看，对于不同语言、不同专业领域、不同排版的OCR，各个LLM的表现各有优劣，没有哪个绝对占优。

比如古籍OCR，有现代电子排版后的横排竖排、有铅印时代的横排竖排、有木刻的宋元明清版图书，通常经专业训练过的模型OCR结果要比通用LLM要好。

不知道现在国内AI界还有多少人相信未来几年就能实现AGI的？

last_idol · 2025 年10 月 15 日 05:08

AGI 不了解，古籍我也没弄过。

wynick27 · 2025 年10 月 15 日 05:55

统计了一下词条，不算后面的附录，正文条目有46200条，对比 @amob 提供的第8版数据48233条少了2033条，不过第8版数据是包括古语，和歌，俳句和英文缩略语的这些加起来估计在1000条左右，实际两个版本应该差1000条左右数据，另外有的词条新版会加义项。

导入了校对工具（还没导入其他参考文本）：

wynick27 · 2025 年10 月 15 日 10:26

校对工具更新，现在支持直接用mdx作为候选来源，但是mdx的数据和词典用的符号特别是英文的位置有差异，需要调整。

wynick27 · 2025 年10 月 17 日 06:32

文件也上传了一份到zlib：