这是四叶草的候选项,我看一下,居然也有“大资”“大自”“达子”这样的词组,查了一下,“大自”未查到。“达子”通“鞑子”,“大资”出处一是《商君书》和《避暑录话》,仅在《汉典》《汉语大词典》中查到,可能古代汉语也有?再就是百度百科的一处词条。
至于你打出的“达自”和《达资》在我的godendic挂载的词典中没找到。
也就是说,词频工作很重要,否则就会出现现在不用的字词把常用的给挤到后面去了的情况。
其实跟论坛里一个网友提出的想法比较像,查词最好是从词频最高的小学词典开始,最常用字词,然后中学、最后高阶和足本。
对词频来说同样如此,从中小学课本词组、新华字典、现代汉语词典中提取出的字词依次赋予从大到小的系数abcdefg,找一堆口语类素材A,查在里面出现的频率。找时政新闻类文章B,查在里面出现的频率,同样的,近现代文学、网络小说,古代文学等也如此。
然后根据一定算法计算(最简单的相乘相加求总),得出一个适合大陆简体的词频表,试用看是不是适合实情,也可以与搜狗对比。
不断调整赋予的系数,直到得出一个满意的词频表。
反正我是准备删掉词库中出现的大资、达子、大自,对普通用户来说根本没意义。