让大语言模型稳定输出格式规整的内容是很费劲的
感谢反馈。
分号分句其实是有个选项的,但还没有整合到mlbee。
”没有对应句的情况“没有进一步处理,原因是有些对齐个案的原文和译文确实存在无对应句,比如每章后的译注。
本来在开发一个专门用来快速编辑平行库的编辑器 ptextpad。但chatgpt以及大语言模型出来后,对平行库的需求可能大大减低了,就基本上停了下来。
2 个赞
我稍微研究了一下 NLTK,它的 tokenize 会切到 word 粒度,对这个需求来说过于碎了,这样的话可能要先判断句子成分再按句子成分进行切割。
坊间的 tokenizer 几乎都是分”字“, 例如“New York is a city”会被分成 [‘New’, ‘York’, ‘is’, ‘a’, ‘city’]。而要做词对齐的话应该分成 [‘New York’, ‘is’, ‘a city’]
大佬好,有幸使用了一下这个工具,非常有帮助,感谢大佬的工作!我现在在尝试用这个工具做日英小说语料的对齐,一个问题是日英的翻译在段落和句级别上并不一一对应,比如日文多段在英文译文中被合并为了一段,或者原文一句拆分为了译文多句,目前用段落或者句模式都不太完美,还是得要大量人工处理。请问会有更好的解决方法吗?我需要的是段落级的平行语料,就是我觉得如果能保持原文的段落不变,译文拆解为句再拼起来对应到原文段落就很完美了。
感谢大佬反馈。
其实mlbee没有用日语测试过。个人觉得要全自动完成将“译文拆解为句再拼起来对应到原文段落”基本无解。大佬找到办法或有什么好想法的话请在这里吼一声。
感谢回复!其实和语言关系不大,头疼的就是一句原文对应多句译文这种情况 有想法会来交流