在BNC语料库中对GSL词汇的义频计算

在网上查找关于“Semantic Frequency”的信息时,无意中发现有作者发表了相关的研究,作者使用谷歌的BERT模型来计算 GSL 词汇中不同义项的频率,并识别出 3695 个高频词义。具体的技术细节,坛友感兴趣的话可以进一步阅读,文献是开放获取的,附文献链接:https://doi.org/10.1177/21582440251333182
在文献的补充材料中附有可下载的义频表

另外,作者在24年发表的这篇论文也很有意思,且与上述研究相关:Frontiers | A high-frequency sense list

又及,国内也出版过统计义项频率的词汇书,是HugeMind研发中心在清华大学出版社出版的一系列适用于高中学习的词汇书,他们是收集的高考真题和高中教材建立的语料库,然后借鉴的Michael West的方法人工统计的义频(花了三年多时间。。。老实说,现在看来这个方法稍微有点笨了,书是23年出版的,当时应该是囿于技术的限制才用的这个方法?)