居然发现一连串的PUA!!! 这也创记录了吧
是对的,你说的search就是搜索栏对吧?把词头填到搜索栏里面,然后看搜索结果是否有匹配,我之前过了一遍,流程是点击搜索结果中第1个,然后。跳转之后的页面要含有严格匹配所搜索的词头,判定的流程有点严苛。我现在又在过一遍,放宽了一点判定条件,有产出,但是速度太慢了。基本上一秒才过一个词
我是把所有结果都过一遍,先只看词头是不是已经在清单,然后再点进去看docid
这个句子你手机能显示么?
貌似都是PUA?
还有很多细节要完善。。。先吃饭去了。
我想到了,你既然有能力写出遍历点击,何必大材小用在这里找词头,
不如type=4,直接找诗词的ID,https://m.shidianhanyu.com/doc_list?query=汉字&doc_type=4&root_source=hanzi&source=site_search
我当时就是写不出点击,导致type=2,=3的词语和成语,现在回头找不到了
type限制好像不需要,返回的页面内容越全越好,不过我可能没懂,诗词可能不属于字典,要靠后一些。
https://m.shidianhanyu.com/search?keyword={}&group_id=7156494868402094087&from=baike_wiki&source=hanzi
这种是默认搜索栏,字词句都可以尝试
https://m.shidianhanyu.com/doc_list?query={}&doc_type=2&root_source=hanzi&source=site_search
这种是特定类型的搜索,一般用单字尝试,得到type=2的词语,type=3的成语,type=4的诗词
我知道,但是不用type,可以一次得到三个type,不是多快好省么?
不过我明白你的意思了,这种方法可以不用通过搜索界面。
是的,但是通用搜索可整不出200词语,200成语,200诗词
我之前过了一遍词语和成语,去重25w,所以我才说这25w必定存在,现在从8000降到600,如今只有不到300没有找到ID(稍后再发),例如前文的三餘,再过一遍type2和type3效果不是很大
所以我才说,不如发挥你的优势,能够遍历点击获取ID,开疆扩土,把type4的诗词整出来,中外诗词,赏析,注释,少说也是20w到30w的数量,岂不美哉,
字和词都有,更新一下mdx就有了,8.30的
我之前用缺例词表一万多词撞库,确知以下几个汉大词语抖音汉语没有收录——
傳教 | 传教 |
---|---|
彭湃 | |
夏耕 | |
弛行 | |
橘核 | |
木香 | |
溏泄 | |
牛膝 | |
洋奴 | |
新夷 | |
胎藉 | |
慌錯 | 慌错 |
磨牙 | |
疰夏 | |
虎牙 | |
肉屏 | |
筋痿 | |
連姻 | 连姻 |
雞巴 | 鸡巴 |
鼻衄 | |
鼻梁 | |
鼻窒 | |
桑白皮 | |
黄熟香 | |
龍蹲 | 龙蹲 |
鸊鷉 |
你所列出的,有的楼主的词典已经收有,比如“胎藉”,有的没有,比如“虎牙”。
顺便提一下,楼主的词典中加红的有“雞林價”,如图:
查《汉语大词典》图片版只有“鸡林贾”,这个收在订补中,关键是这个“鸡林价”下面的见却见不了。这个情况已经不是第一次,建议把所有的见都排查一下,也许能再查出一些漏网之鱼。
经排查,漏掉的是以下词头,其他都在最新版本里面,也就是说, 至少抖音汉语官网其他的词头都是有的:
彭湃
橘核
木香
溏泄
牛膝
磨牙
疰夏
虎牙
筋痿
鼻衄
鼻梁
鼻窒
桑白皮
黄熟香
龍蹲
词头清单20250830版
headwords20250830.rar (1.7 MB)
最新版本好像cssjs和色彩都有微调。
mdx也最好看看timestamp下载一下。
606还有不到300未找到
汉字词语列表606.txt (11.8 KB)
现在一锅出货也就不到300,不过有私人字出货,还不错
【汉语大词典】当前总ID60检测无头.txt (8.0 KB)
词头_大全_减【汉语大词典】当前总ID44difference无验证截至自娛.txt (680.5 KB)
三个txt的ID合并去重减去当前版本就是新增了
抖音百科当前总ID3.0.txt (8.3 MB)
要是不限速就好了,一天就可以干千万词条,妈妈生的
谢谢分享,感觉边际效益递减,可能要收场,否则没完没了的。
说不定以后有更完整的DocId通过非网页界面发出来。
网页设计的除了好看,实在是太笨重了。里面有效内容被膨胀了30倍,浪费每一个使用者和服务器的资源。