抖音汉语 2025-09-14 终结,622296 词头

我都没看明白到底想干啥?是把抖音的词头都抓下来,还是想根据抖音数据把汉语大词典补全?抖音的词典数据好像是大杂烩,如果想要多,把现有的各种中文mdk词典词头都合并在一起,岂不是更多。如果想要补全《汉语大词典》,也没见可靠的统计到底哪些词头、例证需要补,通过其他方式已经拿到了多少、补充了多少,还缺哪些词头、例证没找到任何数据源?即使没有现成的文本数据源,如果数量不多,通过OCR图像版的方式不是更快更方便吗?