新华成语词典

  • 已知问题:

    • 130个乱码未替换,麻烦好心人找到几个字分享下,帮助完善这本词典。(安娜图书馆有pdf,我之前上传过,现在访问不了了)。
  • 下载:

  • 预览

  • 感谢:

    • amob 提供网址
    • bud 提供 xml 地址
  • todo:

    • 提取更多词头
    • 书证分开
11 个赞

感谢大佬出手~

可用“新华成语大词典”补充,如,NB036为𬘝(紾)
image

1 个赞

我手头有纸质书,先录入前50个乱码字吧,有兴趣合作的可以从后面搞起

乱码字录入至第56行,眼睛受不了了,今日到此为止,看看有没有同好接力合作。
errChar_todo.txt (2.4 KB)

谢谢分享,请问这是第一版还是第二版呢?

嗯,比我 百度原文 更快,正好重做一版大词典(用xml),这样搜索时两个一块对比。

1 个赞

感谢参与修订,代码有错,内容缺失,现已更新。

  1. 修订所需的数据文件更新:
    xhcycd.mdx.txt (7.8 MB)
  2. 词典更新(未合并130个错码,等下看补全了一次性合并)
    新华成语词典.zip (2.5 MB)

(一楼的旧版 mdx,内容有缺漏,如查不到:恫<span class="xhcycd_err" title="NB15A">🯄</span>乃身,原因可能是之前代码处理了拼音索引,导致有些词条格式不标准被pass了)

预览:


由 mdx 制作过程出现的错误还可能在:

有5个 PUA 码:
1.     
2. 这五个码,在官网的显示:
image

第一个字有上万多处,其他四个字有十几处,大致看了下应该替换成空字符(即删掉)。但第一个字出现了一万多次没法检查,所以可能正文可能缺“”这个数据,对应这个字:
image(因为这个字目前看到的例子都是应该删掉,所以即便应该有这个字,也被替换成了空白标签,打开F12 查看源代码才能看到)。

也许可以在《新华成语大词典》检索,看有没有这5个字。

如果没有,大概就没有,可以放心替换。

好办法!

对照 [发布]新华成语大词典文字版 - #24,来自 alexpeng 的文字版

五个PUA 码:前四个字不存在,最后一个字出现了三次,百度了下也应该不存在,但规律是后面接了“北北南”,不清楚这个码的用处。

五个PUA码对应的Unicode码(类推简化字没有的搜索繁体字):驐、𮪡駹、无简无繁、𰱩、𩣮
没找到。

可以大致认为数据替换为空白是可靠的。

目前看这个数据和第2版的纸质书一致

哇,这都找到了,在下佩服。

这问题源自官网 xml 数据

    <Entry> 
      <Headword>一丝不挂</Headword>  
      <PinYin>yī sī bù ɡuà</PinYin>  
      <Content> 
        <义项 num="❶">
          <释义></释义>
          <书证>《楞严经》:“一丝不挂,竿木随身。”意思是随身带着钓竿,却不系上钓鱼的丝线。</书证>
        </义项>
        <释义>比喻人生活在尘世之中,却脱离世俗之事,无牵无挂。</释义>
        <书证>宋·楼钥《静斋迂论序》:“郡邑来仕者,闻其风多与之交,俗务一丝不挂。”《警世通言》卷二:“把世情荣枯得失,看做行云流水,一丝不挂。”</书证>
        <义项 num="❷">
          <释义>形容赤身裸体。</释义>
          <书证>宋·杨万里《清晓洪泽放闸四绝句》之一:“放闸老兵殊耐冷,一丝不挂下冰滩。”王安忆《小城之恋》:“河水在烈日下刺眼地反光,一丝不挂的小孩沿着河岸走远,试探地伸脚下水。”</书证>
        </义项>
      </Content> 
    </Entry>  

简单搜了一下,好像就这一个地方有释义闭合为空的情况。请教下有 pdf 的坛友,这个里的正确的顺序是什么?

这个发现很宝贵。注字、释义(本义+引申义)、例证(源+流)的组合情况比较复杂。

【一丝不挂】的➊中:证中有本义。再接喻义。二者应该是平等关系中的先后关系,所以和单独的释义➋ 有所不同。想要严谨,三个则缩进相同,应该都缩进一级(最顶级是数字符号)。想要省版面,则都不缩进(数字符号和释义共享一个等级,但复杂情况时。

【不绝如缕】是注、数字、证+本义、义、证。这个数字加在注前还是证前,原数据是没有的,之前代码的处理是一律加在了注和义前是不准确的,但是怎么判断是注而加在证前,一会用“冒号”这个注的特征试判断一下。



情况比较复杂。 :sweat_smile:

乱码字已录入完毕。原则是尊重纸质书字形。几点说明:
1、数据中“廷”、“庭”等字乱码,是因为原书要确保中间的部件从“壬”(下面的横短),因而自造了一批字。替换为Unicode码后,这个部件在电子设备上的字形会随字体变化,就不一定和原书相符了。
2、NB94D驘、NC956𧫒、NC962賖:纸质书中类推简化,因未找到Unicode码,暂代以繁体字。如有高手能查证一下最新版Unicode有无收录对应的类推简化字最好。
3、ND577㡓:此处系依纸质书字形,未类推简化。
errChar_todo.txt (2.6 KB)

4 个赞

这几条强,受启发重新审视了下5个PUA的用处

  • data.html.txt (6.6 MB)(之前传 mdx.txt 是以为PUA的处理没问题。,现在看来应该是丢失了某些信息,故上传 更早步骤 (xml重命名后、errChar和puaChar 之前)的数据)
  1. 【】11222处:没找到有什么用处。

  2. 【】11处:

    1. 落月屋梁
    2. 困知勉行,看起来像是ABC等字母的最后一个成语的标记。但字母有23个,xml文件有 19 个,这个字符有11个,不太清楚作用。
  3. 【】13处:

    1. 与下一个符号一起使用。猜测(因为只看了一个例子)是符号〈〉
    2. 原文「古华《话说【】芙蓉镇【】》」
  4. 【】13处

    1. 同上
  5. 【】1处:

    1. 原文「至于对雅马哈M【】4型摩托车的调查」
    2. 这个是标记后面数字是 sub 标签
    3. image

用 beautifulsoup 的重命名 xml 标签的过程中,结果中额外添加了许多尾标签</div>和不统一的自封闭标签,这导致标签嵌套混乱的问题,尚不明原因(xml 就一个引擎也没得换,官网的文档也没搜到有什么参数),正在换个别的库进行重命名标签的逻辑。

依我个人的浅见,倒不如使用Emeditor的批量替换,什么额外的标签也不会增加。

我假如把标签一次过整理成Emeditor的替换表格式,是可以一次过替换完的。

我做《新时代》,就一个一个替换,照样做完了,不需要用Python的xml库。xml只是纯文本,找出需要用的mdx词头,接下来就好处理。

:sweat_smile: 我正则比较菜,所以用现成的库。

shaoshi 兄如果需要的急,可以先用 Emeditor 批量替换生成 mdx ,数据材料都是公开的。

建议直接用 lxml 提取到 json,然后使用 jinia2 生成 html。这样的好处是数据完整,不会有缺失,也不会上述提到的问题,缺点是麻烦。。。