我只是在暗示猜测 ID 很困难,算法确定是 Snowflake,你可以了解下这个算法,从 ID 可以反推出机器码,还有这些 ID 的生成时间,看看这些时间有没有什么规律。
我都没看明白到底想干啥?是把抖音的词头都抓下来,还是想根据抖音数据把汉语大词典补全?抖音的词典数据好像是大杂烩,如果想要多,把现有的各种中文mdk词典词头都合并在一起,岂不是更多。如果想要补全《汉语大词典》,也没见可靠的统计到底哪些词头、例证需要补,通过其他方式已经拿到了多少、补充了多少,还缺哪些词头、例证没找到任何数据源?即使没有现成的文本数据源,如果数量不多,通过OCR图像版的方式不是更快更方便吗?
每个人的分工不同
分工之外,需要有效的协作,既往不知道有多少人雄心壮志要修订补苴《汉语大词典》,但好像是各自为政,各干各的,结果你的补正成了别人眼里的数据污染,至今也没有一个众人信服的最佳集成版本。最起码,先搞一个统一的基准文本数据仓库吧,都在这个基础上改,且记录数据变动状况。
在现实生活中想组织起有效的合作很难,在网络也不容易也许更难。
汉大确实太大了,想弄个完整无误的词头都很难。
感谢homie兄再次慷慨分享大作,本人正在使用您制作的好几部巨型词典,万分感谢!
另外,不知是否有可能将380楼sxingbai兄找出的可能缺失条目补充进来?
里面28065个词头,绝大多数都是繁简跳转。
我目前没时间增加跳转。有空可能加进去。
正确。所以我一直说得做成WIKI的架构,只对邀请过来的热心专家开放。谁修改了什么、理由一目了然,还可以批量采纳或不采纳此人的修改。不然总是反反复复、重复劳动
其实游戏翻译协作平台paratranz设计的就挺好,感觉词典修正也可以这么搞
现实就是,就算由坛主出手搭建一个线上合作编校平台,恐怕也没什么人参与其中。我不知道这样比喻妥不妥当,任何主打免费的资源网站只有两类人——“▲”和“▲■”,“▲”少而“▲■”多,“▲”一而“▲■”万,“▲”血易竭,“■”口难填 真正创出资源的人群不过二三十许人,但是现在分享资源的“血口子”只怕会越来越窄,一来互联网知识矿区防私采的手段日趋严紧(防爬取、防转译),二来本坛以及友坛的公开分享的无数资源都被有心人悉数转挂网上牟利无疑会打击人的信心。如果真有人发心要做这样的一个合作编校平台,最好做到“取”“阅”分行,众人合校的文本,公众每天可以有限度地查阅(比如单书两百词为限,已足可满足日常学习需求),但文本只在满足一定任务量的核心成员间进行分享,这样岂不皆大欢喜,两两皆便
赞同!其心可嘉,其事甚难,或曰基本上不可行。收收心吧,能有些免费好用的电子词典用,已经很知足了!本人也已将关注的重点放到AI,我相信未来它会取代所有词典的。
不至于,近五年ai还没办法完全取代纸质词典,相反借着ai的东风,纸电转换的步伐会越来越迅猛,现在市场就差有个真正的“野兽”,来大口吞攫传统纸质词典的市场,真正改变中国人学习语言的习惯。
那野兽要是来了就很凶猛,vip svip估计满天飞,想想现在的版权音乐平台所谓就可知其厉害之处。所以你期望ai取代纸质词典,那对用户来说就是钱钱钱会员会员超级会员。版权音乐平台曾经吞食了不少传统唱片业的市场,之前网上查询过了解了点。
不,有竞争才会压低客单价,你看看汉大官方app的会员价就知道是否真的物有所值了,数据内容一本于光盘版,实际体验比民工汉大mdx还要稀烂