OED人机协作翻译(双解)项目

很佩服你的勇气 换成我 我是不敢的 顶多就是救个急而已 用AI 只是处理部分工作 最终还是要人工把控的 从工作量到技术难度 我们只知道很大 但到底多大 这个不确定 能不能做下去 做好 我们只能说尽力

这些ai翻译文本/图书的主要目的是测试当下ai翻译的能力,译文没人用,连我自己都基本不用。自己想看的话,我觉得直接读英文更方便理解更准确。

我同意这种方案,先别想什么项目管理,需求文档,框架文档,接口文档,什么对比05280324,deekseek或者qwen,先搞出一个google机翻的双解就不错了,先看看情况,
搞双解版,先把词源,释义,例句,用法,摘出来,机翻之后,放在英语的下方,这就是一个大工程了,而且是个可用的版本了,
我搞过游戏的汉化,一个版本6w条,8个版本,标准化去重之后6w条,
本地ollama加载大模型,PyCharm写程序调用,运行速度太慢
在线ai翻译上下文长度限制,风格漂移,
硅基流动或者api,要钱
按照楼主的设想,加载本地大模型,加载专业的术语词典,写好牛逼的提示词,然后逐条翻译,再逐条人工审核,这工程量不是一般的大
我建议要搞的话,也是先把词源,释义,例句,用法,摘出来,用google机翻之后,放在英语的下方,排好版就行了,光洗版和排版就是大工程了





分别是本地调用qwen2.5速度快一点,人工审核的专业术语小词典,翻译展示,质量审核
我汉化的是《圣域2》的4个mod,8个版本

3 个赞

看了一眼,8. a bunch of screws can’t intimidate me. 螺丝???
AI的语义理解是有大问题的,尤其是在语境不充分(单从这句话也不可能翻译成螺丝)的情况下。

如果语境指的是一堆螺丝能像动物(包括人)一样会行动,那当我没说。

这句是提取于早期的官方中文版,如有翻译错误不能算在ai的头上,
我是google机翻,术语关键词技能属性地点人名装备名等为锚点纠错,其他的错误忽略,刷子游戏也没人看剧情对话,
AI现在有用,但也不堪大用,效率2.5倍,错误率40%,但是却给了不懂编程,数据分析的人一个机会,我就不懂Python,但是靠自己靠ai,汉化了游戏mod,完成了心愿,填补了空白,
所以我才建议楼主 先把词源,释义,例句,用法,摘出来,用google机翻之后,放在英语的下方,排好版就行了,
真的,完成比完美更好,

如果只是这样的完成 就没必要做了 如果是AI加人工 能达到80%的满意度的话 我觉得还是可以尝试一下的 我现在处理的单词 都有用到AI 不过 都是逐字校对 确有很多理解错误的地方 AI嘛 毕竟是机器 连人都不能做到十全十美 何况机器呢 对吧

能不能先把英语词频最高的100个词做出来?做词频最高前10个也行啊

1 个赞

你做一下就知道工程量有多大了,你把流程跑通,代码,术语词典,大模型,提示词都整理出来,然后放出来,我作为热心网友帮你通宵挂电脑,AI翻译之后的数据再找人核对,

其实是已经做了部分了 至少最常用英语动词 30来个 基本上处理完了 后面准备处理其他的

我之前是自己独立搞 累死累活 也没弄出来多少 这不 正好有朋友对AI感兴趣 就想着是不是能利用一下 就我本人来说 其实技术 能力各方面都是非常有限的 如果要做 要靠大家一起努力了

那把这30个发出来看看呗,有啥问题大家找找

再等等看吧 希望大家能看到

将来应该能看到的 耐心等等吧

用AI+人工再翻译一下(The) Ormulum(OED里的例句)的句子:Crist badd tatt teȝȝ sholldenn gan & fillenn þeȝȝre fetless. Wiþþ waterr. 翻译不了的话我就直接给答案。能自己翻译的,直接给出答案(我更希望看到有人能自己翻译,到目前为止,我没看到有人是自己翻译的),不要用AI。最好是翻译成现代英语,不要汉语。

你作为项目统筹的,需要先自己搞清楚这个项目的复杂度,比如 OED 的词条数,需要翻译多少句子,以及 AI 可能需要消耗的令牌数量,你还要决定翻译的风格和对 AI 模型进行简单的评估, 需要了解 API 接口、调用限制及预估翻译成本,还有人机协作的方式,审核校对是用纯文本还是用 CAT 辅助,参与协作是用 Github 还是用 Notion 之类的文档平台,整个流程你都要提前走通,最后是工作量多少项目周期多长每个阶段人员角色怎么安排都要有个基本的预期。

1 个赞

完全认同。尽管有大语言模型作为辅助工具,这项工程即便由专业的翻译团队去推进,也面临巨大的难度,更何况依赖水平参差、背景各异的论坛用户。

当前人们对于大语言模型的能力存在一定程度的高估,尤其是在语义层次理解、语境判断与术语统一等方面,它仍有明显局限,而 OED 这本词典的翻译工作恰恰对这些维度有极高要求,实际作用是非常有限的,远未达到可独立胜任的程度。

另外,关于 OED 双解的必要性,引用 GPT-4o 的回复:

《牛津英语词典》为何未曾推出过双解版?

《牛津英语词典》(OED, Oxford English Dictionary)本身没有推出双解版 (即英汉双语解释版本),原因如下:

1. 定位与受众

OED 是面向语言学者、研究人员和专业人士的权威历史词典,主要目的是:

  • 提供每个词的历时演变、起源、语义发展
  • 展示大量历史语料引文

这类内容专业性极强,其主要用户群体具备较强的英语能力,无需中文解释

2. 使用深度与风格

  • OED 的定义非常严谨、学术化,不是以“学习型词典”或“工具型词典”为目的;
  • 双解词典通常用于学习英语辅助阅读,例如《牛津高阶英汉双解词典》(Oxford Advanced Learner’s English-Chinese Dictionary, OALECD),这类词典才有对应的双解版。

3. 已有其他牛津双解词典满足市场

  • 牛津大学出版社已经出版了多种英汉双解学习词典,如《牛津高阶》《牛津中阶》等,它们是为英语学习者量身打造的,填补了需求;
  • 没有必要将极其庞大和专业的 OED 做双语化——那将是一项耗费极高、用途有限的工程。

总结:

OED 没有推出过双解版,因为它不是为英语学习者设计的,而是作为记录英语历史和演变的权威工具,其专业性远超一般读者的需求;双解功能则由其他更适合的牛津词典产品承担。

确实 这已经远远超过我个人的能力了 实在不行 只有蚂蚁啃骨头慢慢自己啃了

1 个赞

确实,随便一展开都是天文数字,想都不用想,
最切合实际就是洗版,整理,google机翻,在导入,打包,其他的本地跑,api跑,免费网页跑,效果是有提升,但是工作量指数上升,
或者tango写个插件,调用手机0.5b模型,查询单词实时翻译,

说实话,让AI翻译OED,必定免不了大量的ME和OE,如果你只是要翻译现代英语(OED的一小部分),那也会有错(在样本规模较小的情况下也是如此)。如果没几个人能处理这些文本的话,那就不用谈校对了。