词典的图像底本不大清晰,不过Gemini 2.5 Pro依然可以达到比较高的识别正确率。我粗略检查过,做成词典的话应该算基本可用。
因为额度限制问题,正在陆续OCR当中,先放出前750页(正文共2057页)的文本数据,供大家批评指正,看下有什么可以改进的余地。
词典已经OCR完了,大概有400-500万字,尚需要进一步整理,比如像前后页接续的地方容易出问题,遗漏少量文本,音标错误等。
为了方便多人协作改进文本质量,在github建了一个repo,它的更新比较及时: GitHub - mahavivo/larousse: 拉鲁斯法汉双解词典
拉鲁斯法汉双解词典 文本.txt (11.6 MB)(2025-09-05 版)
7 个赞
这本词典我记得论坛有mdx版啊,然后也有外研社和商务印书馆两个版本,外研社是01年的,商务印书馆的是14年,不知道有什么区别。
论坛上已有的是图片版mdx词典。
外研社和商务印书馆的都叫拉鲁斯法汉词典,但依据的原始底本不同:
1)商务印书馆:
本词典是一本深入学习法语语言的工具书,收录了35000个单词及词汇,按照字母表顺序
排列,每个词条里注有丰富的词义、短语及表达法,为语言的正确使用提供了完整丰富的信息。
体例说明
《拉鲁斯法汉词典》(法法·法汉双解)的法文蓝本是拉鲁斯出版社1994年出版的《法语词典》
( Dictionnaire de français)。
2)外研社:
前言
经过四年多的努力,《拉鲁斯法汉双解词典》终于与读者见面了。该词典的法文原版是拉鲁斯出版社于1995年出版的《法语词典》(DICTIONNAIRE DE LA LANGUE FRANÇAISE)。这是一部中型词典,共38000 词条,含50000个同义词及20000条短语。
哦我找了下论坛那个好像是基于在线版的:
这个版本缺很多词条。
然后商务印书馆版本和外研社版本我下载了比较发现解释和例句都不一致,外研社版的词条更多那看来还是有做的价值的。
我正好写了个多个来源的文本校对工具,可以拿这个试试。
词典已经OCR完了,大概有400-500万字,不过我尚需要对它进一步整理粗校,像页码衔接的地方特别容易出问题,遗漏少量文本等。
先把未整理的原始OCR文本稿全部传上来,慎用,主要供批判。
更新见主帖。
增上慢
8
唉,都没人挑错,随便看了一下,有些单词音标里的“_”是不是多余的?@mixivivo,你核对下图像版,如何?
音标里的“-”没有错,是承前省略重复音标内容的意思。
400-500万字的文本,我个人一一校对是不可能的了,只要大致可用,没有太明显的错误即可。
增上慢
15
I just found it by chance。
增上慢
16
·强壮剂,滋补剂;兴奋剂
“·”是不是多余的?
我怎么感觉AI的这种符号问题不少,大概是什么原因导致的?
增上慢
17
L’orateur se troubla、演讲人发慌了。
“、”是不是又错了?(全凭感觉,我感觉“、”是错的)这需要你核对图像版。
偶尔这种错误没什么,主要是图像里的污点干扰导致的,不是很常见。大模型比较智能,一般来说有很强的黑边、污损等抗干扰能力。
增上慢
19
viral, e, aux [viral, -0]
“0”这种呢?又是什么原因导致的?
“0”肯定是错的,都不用看图像版。