我有一些办法,不需要人工审核。切实可行的算法,基本是存在的,而且简单。不需要花钱。
- 批量寻找这样词的的具体方法:
您制作“ 鸿雁拼音+腾讯词库测试版·全拼v0.2 输入方案”时,应该是是在“鸿雁2700万词库” 和 (腾讯1前多万词库+百度百科+汉语大词典等)之间取得交集的。那能不能更新下?能不能在后者(腾讯1前多万词库+百度百科+汉语大词典等)中增添一些输入法类词库,比如 RIME官方词库,四叶草词库,搜狗词库等等,可以多添加一些这样的词库。这样取的的交集更可能包括“实在是,不想去,想问的是”这样的词条了。
- 另外,一个关于词频优化的方法,不需要人工审核,不花钱:就是,拿既有的一个别的词库的词频,来调整“鸿雁拼音+腾讯词库测试版·全拼v0.2 输入方案”词频。
目前“鸿雁拼音+腾讯词库测试版·全拼v0.2 输入方案”的一个问题是,比如 次哭 一词的词频高于 词库 一词,(次哭 一词在新版中已经删除掉了,我只是拿它举个例子),那可以拿一个小词库批量微调词频。比如 GitHub - rime/rime-pinyin-simp: 【袖珍簡化字拼音】輸入方案 是一个官方袖珍简化字拼音小词库。如果一个词出现在这个 袖珍简化字拼音 中,那可以认为这个词是真正的高频词,那在 鸿雁拼音+腾讯词库测试版·全拼v0.2 输入方案 中,人为地把该词词频提高;这样 词库 的词频 就会 高于 次哭;再举一个例子,想输入 每页 一词,它排在很后面。通过上述方法,可以将批量调整词频。这样,每页 这个常用词,在候选项中,更靠前。另外,袖珍简化字拼音 词库 也可以给 交集词库提供 词频,比如袖珍简化字拼音词库中 每页 的词频 高也 美也(美或者美也都不存在于 袖珍简化字拼音 中),那如是参考,对于“鸿雁拼音+腾讯词库测试版·全拼v0.2 输入方案”的词频做出相应地调整。
截图:想输入 每页 一词,候选项第一屏和第二屏
- 利用同样的原理,参考一些权威拼音词库,也可以对“鸿雁拼音+腾讯词库测试版·全拼v0.2 输入方案”拼音进行校准。
以上是在下的业余想法,请楼主鉴别。