-
已知问题:
- 130个乱码未替换,麻烦好心人找到几个字分享下,帮助完善这本词典。(安娜图书馆有pdf,我之前上传过,现在访问不了了)。
- errChar_todo.txt (2.4 KB)
- entries.txt (7.0 MB)
- 130个乱码未替换,麻烦好心人找到几个字分享下,帮助完善这本词典。(安娜图书馆有pdf,我之前上传过,现在访问不了了)。
-
下载:
- 新华成语词典.mdx (2.5 MB)
- xhcycd.css (943 字节)
-
预览
-
感谢:
- amob 提供网址
- bud 提供 xml 地址
-
todo:
- 提取更多词头
- 书证分开
感谢大佬出手~
可用“新华成语大词典”补充,如,NB036为𬘝(紾)
我手头有纸质书,先录入前50个乱码字吧,有兴趣合作的可以从后面搞起
乱码字录入至第56行,眼睛受不了了,今日到此为止,看看有没有同好接力合作。
errChar_todo.txt (2.4 KB)
谢谢分享,请问这是第一版还是第二版呢?
嗯,比我 百度原文 更快,正好重做一版大词典(用xml),这样搜索时两个一块对比。
感谢参与修订,代码有错,内容缺失,现已更新。
- 修订所需的数据文件更新:
xhcycd.mdx.txt (7.8 MB) - 词典更新(未合并130个错码,等下看补全了一次性合并)
新华成语词典.zip (2.5 MB)
(一楼的旧版 mdx,内容有缺漏,如查不到:
恫<span class="xhcycd_err" title="NB15A">🯄</span>乃身
,原因可能是之前代码处理了拼音索引,导致有些词条格式不标准被pass了)
预览:
由 mdx 制作过程出现的错误还可能在:
有5个 PUA 码:
1.
2. 这五个码,在官网的显示:
第一个字有上万多处,其他四个字有十几处,大致看了下应该替换成空字符(即删掉)。但第一个字出现了一万多次没法检查,所以可能正文可能缺“”这个数据,对应这个字:
(因为这个字目前看到的例子都是应该删掉,所以即便应该有这个字,也被替换成了空白标签,打开F12 查看源代码才能看到)。
也许可以在《新华成语大词典》检索,看有没有这5个字。
如果没有,大概就没有,可以放心替换。
好办法!
对照 [发布]新华成语大词典文字版 - #24,来自 alexpeng 的文字版
五个PUA 码:前四个字不存在,最后一个字出现了三次,百度了下也应该不存在,但规律是后面接了“北北南”,不清楚这个码的用处。
五个PUA码对应的Unicode码(类推简化字没有的搜索繁体字):驐、𮪡駹、无简无繁、𰱩、𩣮
没找到。
可以大致认为数据替换为空白是可靠的。
目前看这个数据和第2版的纸质书一致
哇,这都找到了,在下佩服。
这问题源自官网 xml 数据
<Entry>
<Headword>一丝不挂</Headword>
<PinYin>yī sī bù ɡuà</PinYin>
<Content>
<义项 num="❶">
<释义></释义>
<书证>《楞严经》:“一丝不挂,竿木随身。”意思是随身带着钓竿,却不系上钓鱼的丝线。</书证>
</义项>
<释义>比喻人生活在尘世之中,却脱离世俗之事,无牵无挂。</释义>
<书证>宋·楼钥《静斋迂论序》:“郡邑来仕者,闻其风多与之交,俗务一丝不挂。”《警世通言》卷二:“把世情荣枯得失,看做行云流水,一丝不挂。”</书证>
<义项 num="❷">
<释义>形容赤身裸体。</释义>
<书证>宋·杨万里《清晓洪泽放闸四绝句》之一:“放闸老兵殊耐冷,一丝不挂下冰滩。”王安忆《小城之恋》:“河水在烈日下刺眼地反光,一丝不挂的小孩沿着河岸走远,试探地伸脚下水。”</书证>
</义项>
</Content>
</Entry>
简单搜了一下,好像就这一个地方有释义闭合为空的情况。请教下有 pdf 的坛友,这个里的正确的顺序是什么?
这个发现很宝贵。注字、释义(本义+引申义)、例证(源+流)的组合情况比较复杂。
【一丝不挂】的➊中:证中有本义。再接喻义。二者应该是平等关系中的先后关系,所以和单独的释义➋ 有所不同。想要严谨,三个则缩进相同,应该都缩进一级(最顶级是数字符号)。想要省版面,则都不缩进(数字符号和释义共享一个等级,但复杂情况时。
【不绝如缕】是注、数字、证+本义、义、证。这个数字加在注前还是证前,原数据是没有的,之前代码的处理是一律加在了注和义前是不准确的,但是怎么判断是注而加在证前,一会用“冒号”这个注的特征试判断一下。
情况比较复杂。
乱码字已录入完毕。原则是尊重纸质书字形。几点说明:
1、数据中“廷”、“庭”等字乱码,是因为原书要确保中间的部件从“壬”(下面的横短),因而自造了一批字。替换为Unicode码后,这个部件在电子设备上的字形会随字体变化,就不一定和原书相符了。
2、NB94D驘、NC956𧫒、NC962賖:纸质书中类推简化,因未找到Unicode码,暂代以繁体字。如有高手能查证一下最新版Unicode有无收录对应的类推简化字最好。
3、ND577㡓:此处系依纸质书字形,未类推简化。
errChar_todo.txt (2.6 KB)
这几条强,受启发重新审视了下5个PUA的用处
- data.html.txt (6.6 MB)(之前传 mdx.txt 是以为PUA的处理没问题。,现在看来应该是丢失了某些信息,故上传 更早步骤 (xml重命名后、errChar和puaChar 之前)的数据)
-
【】11222处:没找到有什么用处。
-
【】11处:
- 落月屋梁
- 困知勉行,看起来像是ABC等字母的最后一个成语的标记。但字母有23个,xml文件有 19 个,这个字符有11个,不太清楚作用。
-
【】13处:
- 与下一个符号一起使用。猜测(因为只看了一个例子)是符号〈〉
- 原文「古华《话说【】芙蓉镇【】》」
-
【】13处
- 同上
-
【】1处:
- 原文「至于对雅马哈M【】4型摩托车的调查」
- 这个是标记后面数字是 sub 标签
用 beautifulsoup 的重命名 xml 标签的过程中,结果中额外添加了许多尾标签</div>
和不统一的自封闭标签,这导致标签嵌套混乱的问题,尚不明原因(xml 就一个引擎也没得换,官网的文档也没搜到有什么参数),正在换个别的库进行重命名标签的逻辑。
依我个人的浅见,倒不如使用Emeditor的批量替换,什么额外的标签也不会增加。
我假如把标签一次过整理成Emeditor的替换表格式,是可以一次过替换完的。
我做《新时代》,就一个一个替换,照样做完了,不需要用Python的xml库。xml只是纯文本,找出需要用的mdx词头,接下来就好处理。
我正则比较菜,所以用现成的库。
shaoshi 兄如果需要的急,可以先用 Emeditor 批量替换生成 mdx ,数据材料都是公开的。
建议直接用 lxml 提取到 json,然后使用 jinia2 生成 html。这样的好处是数据完整,不会有缺失,也不会上述提到的问题,缺点是麻烦。。。