抖音汉语 2025-09-05 终结,618677 词头

居然发现一连串的PUA!!! 这也创记录了吧

是对的,你说的search就是搜索栏对吧?把词头填到搜索栏里面,然后看搜索结果是否有匹配,我之前过了一遍,流程是点击搜索结果中第1个,然后。跳转之后的页面要含有严格匹配所搜索的词头,判定的流程有点严苛。我现在又在过一遍,放宽了一点判定条件,有产出,但是速度太慢了。基本上一秒才过一个词

我是把所有结果都过一遍,先只看词头是不是已经在清单,然后再点进去看docid


不太明白

这个句子你手机能显示么?

貌似都是PUA?

7161678878585634856


汉字98682减53.txt (337.4 KB)
也许你可以先过一遍Unicode16-53

1 个赞

还有很多细节要完善。。。先吃饭去了。

我想到了,你既然有能力写出遍历点击,何必大材小用在这里找词头,
不如type=4,直接找诗词的ID,https://m.shidianhanyu.com/doc_list?query=汉字&doc_type=4&root_source=hanzi&source=site_search


我当时就是写不出点击,导致type=2,=3的词语和成语,现在回头找不到了

type限制好像不需要,返回的页面内容越全越好,不过我可能没懂,诗词可能不属于字典,要靠后一些。

https://m.shidianhanyu.com/search?keyword={}&group_id=7156494868402094087&from=baike_wiki&source=hanzi
这种是默认搜索栏,字词句都可以尝试
https://m.shidianhanyu.com/doc_list?query={}&doc_type=2&root_source=hanzi&source=site_search
这种是特定类型的搜索,一般用单字尝试,得到type=2的词语,type=3的成语,type=4的诗词

我知道,但是不用type,可以一次得到三个type,不是多快好省么?
不过我明白你的意思了,这种方法可以不用通过搜索界面。

是的,但是通用搜索可整不出200词语,200成语,200诗词

我之前过了一遍词语和成语,去重25w,所以我才说这25w必定存在,现在从8000降到600,如今只有不到300没有找到ID(稍后再发),例如前文的三餘,再过一遍type2和type3效果不是很大
所以我才说,不如发挥你的优势,能够遍历点击获取ID,开疆扩土,把type4的诗词整出来,中外诗词,赏析,注释,少说也是20w到30w的数量,岂不美哉,

1 个赞

此字、词无
㗨、㗨嘘

jcz777版有,或许可用那版补充缺失字词头?

字和词都有,更新一下mdx就有了,8.30的

1 个赞

我之前用缺例词表一万多词撞库,确知以下几个汉大词语抖音汉语没有收录——

傳教 传教
彭湃
夏耕
弛行
橘核
木香
溏泄
牛膝
洋奴
新夷
胎藉
慌錯 慌错
磨牙
疰夏
虎牙
肉屏
筋痿
連姻 连姻
雞巴 鸡巴
鼻衄
鼻梁
鼻窒
桑白皮
黄熟香
龍蹲 龙蹲
鸊鷉

你所列出的,有的楼主的词典已经收有,比如“胎藉”,有的没有,比如“虎牙”。
顺便提一下,楼主的词典中加红的有“雞林價”,如图:


查《汉语大词典》图片版只有“鸡林贾”,这个收在订补中,关键是这个“鸡林价”下面的见却见不了。这个情况已经不是第一次,建议把所有的见都排查一下,也许能再查出一些漏网之鱼。

经排查,漏掉的是以下词头,其他都在最新版本里面,也就是说, 至少抖音汉语官网其他的词头都是有的:

彭湃
橘核
木香
溏泄
牛膝
磨牙
疰夏
虎牙
筋痿
鼻衄
鼻梁
鼻窒
桑白皮
黄熟香
龍蹲

词头清单20250830版
headwords20250830.rar (1.7 MB)

最新版本好像cssjs和色彩都有微调。
mdx也最好看看timestamp下载一下。

606还有不到300未找到
汉字词语列表606.txt (11.8 KB)
现在一锅出货也就不到300,不过有私人字出货,还不错
【汉语大词典】当前总ID60检测无头.txt (8.0 KB)


词头_大全_减【汉语大词典】当前总ID44difference无验证截至自娛.txt (680.5 KB)

三个txt的ID合并去重减去当前版本就是新增了

抖音百科当前总ID3.0.txt (8.3 MB)
要是不限速就好了,一天就可以干千万词条,妈妈生的

谢谢分享,感觉边际效益递减,可能要收场,否则没完没了的。
说不定以后有更完整的DocId通过非网页界面发出来。

网页设计的除了好看,实在是太笨重了。里面有效内容被膨胀了30倍,浪费每一个使用者和服务器的资源。