鸿雁输入法——整句输入法中一颗冉冉升起的新星

现在使用信息论自动分词把词语数量从机械分词的5.14亿降到6000万,6000万词语中包含的有效的词语效果也比较满意。

现在面临的问题是如果把这6000万词语进一步缩减,如何进一步剔除废词,冗余的词语,这个让人头大。

这个问题解决了,就可以发布新版了