新华成语词典

匿名1708 · 2024 年7 月 4 日 14:04

已知问题：
- 130个乱码未替换，麻烦好心人找到几个字分享下，帮助完善这本词典。（安娜图书馆有pdf，我之前上传过，现在访问不了了）。
  - errChar_todo.txt (2.4 KB)
  - entries.txt (7.0 MB)
下载：
- 新华成语词典.mdx (2.5 MB)
- xhcycd.css (943 字节)
预览
- image3153×802 283 KB
感谢：
- amob 提供网址
- bud 提供 xml 地址
todo：
- 提取更多词头
- 书证分开

Su6i · 2024 年7 月 4 日 14:06

感谢大佬出手~

匿名1677 · 2024 年7 月 4 日 14:18

可用“新华成语大词典”补充，如，NB036为𬘝（紾）

slgns · 2024 年7 月 5 日 07:57

我手头有纸质书，先录入前50个乱码字吧，有兴趣合作的可以从后面搞起

slgns · 2024 年7 月 5 日 08:16

乱码字录入至第56行，眼睛受不了了，今日到此为止，看看有没有同好接力合作。
errChar_todo.txt (2.4 KB)

hahaya · 2024 年7 月 5 日 09:32

谢谢分享，请问这是第一版还是第二版呢？

匿名1711 · 2024 年7 月 5 日 09:57

嗯，比我百度原文更快，正好重做一版大词典（用xml），这样搜索时两个一块对比。

匿名1711 · 2024 年7 月 5 日 12:39

感谢参与修订，代码有错，内容缺失，现已更新。

修订所需的数据文件更新：
xhcycd.mdx.txt (7.8 MB)
词典更新（未合并130个错码，等下看补全了一次性合并）
新华成语词典.zip (2.5 MB)

（一楼的旧版 mdx，内容有缺漏，如查不到：恫<span class="xhcycd_err" title="NB15A">🯄</span>乃身，原因可能是之前代码处理了拼音索引，导致有些词条格式不标准被pass了）

预览：

匿名1711 · 2024 年7 月 5 日 12:41

由 mdx 制作过程出现的错误还可能在：

有5个 PUA 码：
1.     
2. 这五个码，在官网的显示：

第一个字有上万多处，其他四个字有十几处，大致看了下应该替换成空字符（即删掉）。但第一个字出现了一万多次没法检查，所以可能正文可能缺“”这个数据，对应这个字：
（因为这个字目前看到的例子都是应该删掉，所以即便应该有这个字，也被替换成了空白标签，打开F12 查看源代码才能看到）。

shaoshi · 2024 年7 月 5 日 12:45

也许可以在《新华成语大词典》检索，看有没有这5个字。

如果没有，大概就没有，可以放心替换。

匿名1711 · 2024 年7 月 5 日 13:01

好办法！

对照［发布］新华成语大词典文字版 - #24，来自 alexpeng 的文字版

五个PUA 码：前四个字不存在，最后一个字出现了三次，百度了下也应该不存在，但规律是后面接了“北北南”，不清楚这个码的用处。

五个PUA码对应的Unicode码（类推简化字没有的搜索繁体字）：驐、𮪡駹、无简无繁、𰱩、𩣮
没找到。

可以大致认为数据替换为空白是可靠的。

slgns · 2024 年7 月 5 日 13:33

目前看这个数据和第2版的纸质书一致

匿名1711 · 2024 年7 月 5 日 17:04

哇，这都找到了，在下佩服。

这问题源自官网 xml 数据

    <Entry> 
      <Headword>一丝不挂</Headword>  
      <PinYin>yī sī bù ɡuà</PinYin>  
      <Content> 
        <义项 num="❶">
          <释义></释义>
          <书证>《楞严经》：“一丝不挂，竿木随身。”意思是随身带着钓竿，却不系上钓鱼的丝线。</书证>
        </义项>
        <释义>比喻人生活在尘世之中，却脱离世俗之事，无牵无挂。</释义>
        <书证>宋·楼钥《静斋迂论序》：“郡邑来仕者，闻其风多与之交，俗务一丝不挂。”《警世通言》卷二：“把世情荣枯得失，看做行云流水，一丝不挂。”</书证>
        <义项 num="❷">
          <释义>形容赤身裸体。</释义>
          <书证>宋·杨万里《清晓洪泽放闸四绝句》之一：“放闸老兵殊耐冷，一丝不挂下冰滩。”王安忆《小城之恋》：“河水在烈日下刺眼地反光，一丝不挂的小孩沿着河岸走远，试探地伸脚下水。”</书证>
        </义项>
      </Content> 
    </Entry>

简单搜了一下，好像就这一个地方有释义闭合为空的情况。请教下有 pdf 的坛友，这个里的正确的顺序是什么？

匿名1711 · 2024 年7 月 5 日 18:04

这个发现很宝贵。注字、释义（本义+引申义）、例证（源+流）的组合情况比较复杂。

【一丝不挂】的➊中：证中有本义。再接喻义。二者应该是平等关系中的先后关系，所以和单独的释义➋ 有所不同。想要严谨，三个则缩进相同，应该都缩进一级（最顶级是数字符号）。想要省版面，则都不缩进（数字符号和释义共享一个等级，但复杂情况时。

【不绝如缕】是注、数字、证+本义、义、证。这个数字加在注前还是证前，原数据是没有的，之前代码的处理是一律加在了注和义前是不准确的，但是怎么判断是注而加在证前，一会用“冒号”这个注的特征试判断一下。

情况比较复杂。

slgns · 2024 年7 月 6 日 02:33

乱码字已录入完毕。原则是尊重纸质书字形。几点说明：
1、数据中“廷”、“庭”等字乱码，是因为原书要确保中间的部件从“壬”（下面的横短），因而自造了一批字。替换为Unicode码后，这个部件在电子设备上的字形会随字体变化，就不一定和原书相符了。
2、NB94D驘、NC956𧫒、NC962賖：纸质书中类推简化，因未找到Unicode码，暂代以繁体字。如有高手能查证一下最新版Unicode有无收录对应的类推简化字最好。
3、ND577㡓：此处系依纸质书字形，未类推简化。
errChar_todo.txt (2.6 KB)

匿名1711 · 2024 年7 月 6 日 05:05

这几条强，受启发重新审视了下5个PUA的用处

data.html.txt (6.6 MB)（之前传 mdx.txt 是以为PUA的处理没问题。，现在看来应该是丢失了某些信息，故上传更早步骤（xml重命名后、errChar和puaChar 之前）的数据）

【】11222处：没找到有什么用处。
【】11处：
1. 落月屋梁
2. image1440×1170 193 KB
3. 困知勉行，看起来像是ABC等字母的最后一个成语的标记。但字母有23个，xml文件有 19 个，这个字符有11个，不太清楚作用。
【】13处：
1. 与下一个符号一起使用。猜测（因为只看了一个例子）是符号〈〉
2. 原文「古华《话说【】芙蓉镇【】》」
3. image1236×216 45.8 KB
【】13处
1. 同上
【】1处：
1. 原文「至于对雅马哈M【】4型摩托车的调查」
2. 这个是标记后面数字是 sub 标签

匿名1711 · 2024 年7 月 6 日 05:12

用 beautifulsoup 的重命名 xml 标签的过程中，结果中额外添加了许多尾标签</div>和不统一的自封闭标签，这导致标签嵌套混乱的问题，尚不明原因（xml 就一个引擎也没得换，官网的文档也没搜到有什么参数），正在换个别的库进行重命名标签的逻辑。

shaoshi · 2024 年7 月 6 日 05:23

依我个人的浅见，倒不如使用Emeditor的批量替换，什么额外的标签也不会增加。

我假如把标签一次过整理成Emeditor的替换表格式，是可以一次过替换完的。

我做《新时代》，就一个一个替换，照样做完了，不需要用Python的xml库。xml只是纯文本，找出需要用的mdx词头，接下来就好处理。

匿名1711 · 2024 年7 月 6 日 05:32

我正则比较菜，所以用现成的库。

shaoshi 兄如果需要的急，可以先用 Emeditor 批量替换生成 mdx ，数据材料都是公开的。

last_idol · 2024 年7 月 6 日 06:40

建议直接用 lxml 提取到 json，然后使用 jinia2 生成 html。这样的好处是数据完整，不会有缺失，也不会上述提到的问题，缺点是麻烦。。。