鸿雁输入法——整句输入法中一颗冉冉升起的新星

粗略测试,个人感觉:5.0词库(仅仅指词库)单字频率较4.0更为合理,但还不是非常合理,如 qing首字是 情,想必楼主是种/重感情(按照目前词库,种感情 排在 重感情 之前)的人;罕用字排在后面了。其他方面,涛声依旧,基本如以前4.0版本,如同一拼音下候选词过多,词频/排序不太合理,一些常用词缺失等等和以前一样。整体上来说,词库可在日常生活中使用了,虽然常用词的词频不是很合理;词库目前有丰富短句加持,略呈语句输入的效果,词汇丰富。

image
种感情 词频 高于 重感情,楼主一定可以给出技术说明,来说明为什么会这样。但能不能人工干预下?干预方法或许可以很简单,比如参考现代汉语词典词表,对词表的词汇给予额外更高的权重。次哭/词库词频也是同样的问题。

另外:
发现一个现象,或许是词库包含的词语太多、相互干扰引起的,说明如下:

输入yixue,首词为 医学;输入 mingci,首词为 名词。输入 yixuemingci,首词为 一学名词
image

输入yige,首词为 一个;输入chenshuideren,首词为 沉睡的人;输入yigechenshuideren,首词为 一个沉水的人。

image

yuju-语句,shuru-输入,但yujushuru-于据输入
image

词汇太多,尤其是废词太多,可能鸠占鹊巢,牝鸡司晨,尾大不掉。

(牝鸡司晨这个词竟然不在词库里。清关公司 也不存在词库里。)
image
image

楼主,机器或程序的工作需要人工选择和干预的。机器认为 次哭 的词频高于 词库,但是次哭词频高起来,只有负面作用;窃以为,应该考虑删除“次哭”这样的废词,还词库一片晴空;甚至,输入法的词频,不能直接套用语料库产生的词频。还请考虑!

1 个赞