《拉鲁斯法汉双解词典》 文本数据(OCR)

词典的图像底本不大清晰,不过Gemini 2.5 Pro依然可以达到比较高的识别正确率。我粗略检查过,做成词典的话应该算基本可用。

因为额度限制问题,正在陆续OCR当中,先放出前750页(正文共2057页)的文本数据,供大家批评指正,看下有什么可以改进的余地。

词典已经OCR完了,大概有400-500万字,尚需要进一步整理,比如像前后页接续的地方容易出问题,遗漏少量文本,音标错误等。

为了方便多人协作改进文本质量,在github建了一个repo,它的更新比较及时: GitHub - mahavivo/larousse: 拉鲁斯法汉双解词典

拉鲁斯法汉双解词典 文本.txt (11.6 MB)(2025-09-05 版

7 个赞

识别过程中使用的prompt:

OCR,识别提取pdf文件当中的文字。要求如下:

  1. 页眉部分表示页码的阿拉伯数字,置于“〈〉”符号之中,(页眉同一行的其余索引文字删除不要),且把它放在输出最开始的位置,下面加一空行;假如不存在页码,用“〈?〉”占位表示。
  2. 这是一本法汉词典,注意法文的正确拼写,不要忽略变音符号。
  3. 代表示专业学科类目的缩写词放入〔〕符号内,如〔电〕〔文〕〔神〕〔生化〕〔建筑〕等。
  4. 页面左右分栏,识别阅读顺序为先左栏再右栏。
  5. 正文部分首尾要完整识别,不要遗漏内容。
  6. 在不同的词条之间空一行。
  7. 识别结果以plain text格式输出,不要添加多余的markdown标记等。
  8. 正文里用了一些特殊符号,比如黑圆圈内的反白数字,它们是序号编码,请使用❶❷❸❹❺❻❼❽❾……样式表示。正文也使用了黑色菱形符号、白色菱形符号、黑色箭头,请统一分别用◆◇→表示。
  9. 你的默认输出长度限制是65536个token,把它用足,不要偷懒。
  10. 每一个pdf文件有25页,需要全部识别,不要没完成任务就半途中断。

切记,下面这里是至关重要的要求和标准,务必满足:同一词条中的相关释义文字要编辑合并在一个自然段落里,不可像图中那样因为版面限制而断开分行。

这本词典我记得论坛有mdx版啊,然后也有外研社和商务印书馆两个版本,外研社是01年的,商务印书馆的是14年,不知道有什么区别。

论坛上已有的是图片版mdx词典。

外研社和商务印书馆的都叫拉鲁斯法汉词典,但依据的原始底本不同:

1)商务印书馆:

本词典是一本深入学习法语语言的工具书,收录了35000个单词及词汇,按照字母表顺序
排列,每个词条里注有丰富的词义、短语及表达法,为语言的正确使用提供了完整丰富的信息。

体例说明
《拉鲁斯法汉词典》(法法·法汉双解)的法文蓝本是拉鲁斯出版社1994年出版的《法语词典》
( Dictionnaire de français)。

2)外研社:

前言
经过四年多的努力,《拉鲁斯法汉双解词典》终于与读者见面了。该词典的法文原版是拉鲁斯出版社于1995年出版的《法语词典》(DICTIONNAIRE DE LA LANGUE FRANÇAISE)。这是一部中型词典,共38000 词条,含50000个同义词及20000条短语。

哦我找了下论坛那个好像是基于在线版的:

这个版本缺很多词条。

然后商务印书馆版本和外研社版本我下载了比较发现解释和例句都不一致,外研社版的词条更多那看来还是有做的价值的。
我正好写了个多个来源的文本校对工具,可以拿这个试试。

词典已经OCR完了,大概有400-500万字,不过我尚需要对它进一步整理粗校,像页码衔接的地方特别容易出问题,遗漏少量文本等。

先把未整理的原始OCR文本稿全部传上来,慎用,主要供批判。

更新见主帖。

唉,都没人挑错,随便看了一下,有些单词音标里的“_”是不是多余的?@mixivivo,你核对下图像版,如何?

你自己找到了哪些错,可以发出来,免得重复劳动。

osselet [ɔslɛ] n. m. ❶ Petit os. 〔解〕小骨 ❷ Pe-

〈1362〉

tit os du

像 petit 这种情况,需要注意。

音标里的“-”没有错,是承前省略重复音标内容的意思。

400-500万字的文本,我个人一一校对是不可能的了,只要大致可用,没有太明显的错误即可。

你看仔细一点,不是“-”,是“_”。

找出错误的规律也行,方便统一更正。

全书只出现过三个“_”符号。

I just found it by chance。

·强壮剂,滋补剂;兴奋剂

“·”是不是多余的?

我怎么感觉AI的这种符号问题不少,大概是什么原因导致的?

L’orateur se troubla、演讲人发慌了。

“、”是不是又错了?(全凭感觉,我感觉“、”是错的)这需要你核对图像版。

偶尔这种错误没什么,主要是图像里的污点干扰导致的,不是很常见。大模型比较智能,一般来说有很强的黑边、污损等抗干扰能力。

viral, e, aux [viral, -0]

“0”这种呢?又是什么原因导致的?

“0”肯定是错的,都不用看图像版。

virelal [Virle] n. m.

单词和音标都是错的,自己核对图像版,我懒得看。