我本人并没有对词频排名干涉
你说的 “大词库”这样的词语在真实的语料库统计数据中肯定有,但是排名在180万以后。
你说的yi shi拼音词语在古文中非常常见,这是不可避免的,兼容古文,就必须接受古文词库中的常用拼音词语。
目前是机械分词 ,人工审核成本太高。230万,你就是从头到尾浏览一遍,得花费多少时间?
多音字的不同拼音频率调整,这个有一个多音字频率辞典,不过数量太少。所以没有采纳
你提到的拼音错误问题,其实是拼音中多音字拼音标注选择问题,只需要保证有正确的拼音就行了,既然现在没有既准确又大又全的词语拼音库,暴力穷举是唯一可行的办法 。
想象 很美好,现实很残酷。用多了几十兆废词空间换来正确拼音一定出现,这个代价是可以承受的。
除非有几千几万人帮助我整理,或者我花钱请同样人数的人专职工作,否则做不到。
输入法是一个庞大工程,谷歌微软都在上面栽过跟头。
目前的选择虽然不是最完美的,却是折衷的,可行的方案。