Ptextpad + 双语对齐工具网页版 mlbee(任意语言对) + 其他bee系列对齐工具

H4M5TER · 2024 年5 月 10 日 03:30

让大语言模型稳定输出格式规整的内容是很费劲的

mikeee · 2024 年5 月 10 日 06:11

感谢反馈。

分号分句其实是有个选项的，但还没有整合到mlbee。

”没有对应句的情况“没有进一步处理，原因是有些对齐个案的原文和译文确实存在无对应句，比如每章后的译注。

本来在开发一个专门用来快速编辑平行库的编辑器 ptextpad。但chatgpt以及大语言模型出来后，对平行库的需求可能大大减低了，就基本上停了下来。

H4M5TER · 2024 年5 月 16 日 22:01

我稍微研究了一下 NLTK，它的 tokenize 会切到 word 粒度，对这个需求来说过于碎了，这样的话可能要先判断句子成分再按句子成分进行切割。

mikeee · 2024 年5 月 18 日 02:24

坊间的 tokenizer 几乎都是分”字“，例如“New York is a city”会被分成 [‘New’, ‘York’, ‘is’, ‘a’, ‘city’]。而要做词对齐的话应该分成 [‘New York’, ‘is’, ‘a city’]

MeiyuJ · 2024 年7 月 17 日 20:07

大佬好，有幸使用了一下这个工具，非常有帮助，感谢大佬的工作！我现在在尝试用这个工具做日英小说语料的对齐，一个问题是日英的翻译在段落和句级别上并不一一对应，比如日文多段在英文译文中被合并为了一段，或者原文一句拆分为了译文多句，目前用段落或者句模式都不太完美，还是得要大量人工处理。请问会有更好的解决方法吗？我需要的是段落级的平行语料，就是我觉得如果能保持原文的段落不变，译文拆解为句再拼起来对应到原文段落就很完美了。

mikeee · 2024 年7 月 18 日 00:52

感谢大佬反馈。
其实mlbee没有用日语测试过。个人觉得要全自动完成将“译文拆解为句再拼起来对应到原文段落”基本无解。大佬找到办法或有什么好想法的话请在这里吼一声。

MeiyuJ · 2024 年7 月 18 日 13:53

感谢回复！其实和语言关系不大，头疼的就是一句原文对应多句译文这种情况有想法会来交流