鸿雁输入法——整句输入法中一颗冉冉升起的新星

不好意思,我评测的时候又是用的290万的那个鸿雁词库。您的2471万词库,是否有这yaml的格式的词库?能提供下载吗?请指点。

为处理 次哭/词库 这类词频问题,能不能这样?参考楼主选择认可的其他权威词库/词表(汉语常用词表,RIME官方词表),对于这些表中出现的词语(想必/假设 次哭 一词不出现),在鸿雁词库中将它们的词频人为调高,这样起码 词库 一词的词频高于 次哭,次哭 即使保留,也不会和比 词库 的词频高,不会争抢风头。实际上,在#43楼,我已经尝试这样做了。

另外,在290万词库中,出现:yuju-语句,shuru-输入,但yujushuru-于据输入 这种情况。这如何理解?虽然您的2471万词库中,能够打出 语句输入。

另,牝鸡司晨,是个常用的成语,290万大小的词库竟然没有包含?290万的词库起码要有一个机制,包含那些常用的词汇(常用成语、常用技术词汇、常用法律、医学词汇等)吧?楼主仅仅靠语料库出现频率来选择词语?选择的有效率、实用性如何?

在词语的选择,词频的确定方面,楼主一点都不考虑参考别的词库(RIME官方词库等)、语料库吗?只想从自己的语料库选取词语、从零做起?好奇!

2 个赞