【已完结】 SIO双向双解词典v3.3

我觉得最核心的是这些词典中的权威双解例句,已分享在网盘。

具体过程只能说是见招拆招,所以我说下思路吧,有了思路,如何实现,用什么语言实现,全看大家的功力。

  1. 下载相应的MDX,并解压。
  2. 从原始文本提取例句,可以正则,可以直接EmEditor编辑,可以python bs4,golang goquery解析页面。
  3. 统一例句结构,并清洗无效数据。
  4. 英文反查。用英文单词、英文词组,依次匹配例句文本。(词组可以从TLD提取,非常全,不会有遗漏。)
  5. 中文反查。使用结巴分词。
  6. 少量数据测试,没有问题,处理全部数据,打包MDX,并最终验证即可。

隔壁有个「有谁能帮忙写一个制作反查mdx的教程呢」的帖子,六楼说的很有道理。

12 个赞