簡繁轉換譚

繁简转换第一步就是要做分词和中文词法分析,分析分词后每个词语的词性,识别出人名、地名和其他专有名词,这个技术是很成熟的,有很多开源项目支持,但问题需要使用标注好词性的中文语料库训练,即使有现成的语料库,也可能因为覆盖不全面,导致准确率有问题。

OpenCC 直接跳过了第一步,分词就出错了,繁化姬没有开源,我猜测做了分词,但没做中文词法分析。起点 APP 可能使用的 OpenCC 版本比较低,或者自研的繁简转换工具,高质量的繁简转换会消耗的大量系统资源,性价比很低。

特殊情况没必要处理,因为这不是普通用户能追求的,能满足大多数人正常使用就够用了。

1 个赞