辞源 文本TXT

更新2:

使用阿佛哥的文本化《辞源》补充了缺失的词头,目前索引中仅余两个怪字(辞源宋体私有编码区字)没找到释义:


它们应该分别是”滋“和”甾“字,对应正体字已经收录在词典正文当中,不清楚索引里重复这些异体字的原因是什么。


更新1:

根据 @sxingbai 提供的索引重新生成了全文文件。缺失的词头更多了,有400多个。还有三个不被索引收录的单字

【𬞱】 18画 6105·3 miè ㄇㄧㄝˋ 莫結切,入,屑韻,明。月部。亦作“䁾”。目眶紅腫。急就篇四:“癉熱瘻痔眵𬞱䀶。”注:"𬞱,目目眥傷赤也。”
【𭚚】 14画 3460·2 bō ㄅㄛ 同“碆”。戰國策楚四:“不知夫射者,方將脩其𭚚盧,治其繒繳,將加己乎百仞之上。”𭚚,一本作“碆”。參見"碆盧”。
【𭳬】 20画 lì ㄌㄧˋ 郎計切,去,霽韻,來。 漉。見廣韻。

文字用的底本还是比较早期的文本版《辞源》,因为它标签比较简洁,容易清理,阿弥陀佛兄的版本后出转精,但内容、标签很多,若想清理干净得到纯文本,是比较麻烦的。


文档没什么大用,随意整理一下,就是为了方便全文搜索。如果要查词,建议使用mdx版本。

原始文本、索引都来自本论坛的MDX词典,但似乎索引并不是很完善,没有和图像版原书严格按照顺序一一对应,不过也没错位很多。

有部分图像版的词头在文本版里缺失,情况复杂,异体字,私有区字等,把它们列举了出来,暂时没有改动修正。

辞源 文本(原词典序).zip (15.3 MB)

词条索引
辭源詞條(106856項,原始詞典排序).txt (2.3 MB)

<缺失(字)词头

丁₂丁₂
下₂人
下₂士
下₂世
下₂吏
下₂車
下₂泉
下₂席
下₂第
下₂場
下₂賢
下₂節
上₂工
上₂天
上₂仙
上₂刑
上₂門
上₂計
上₂章
上₂堂
上₂陵
上₂道
上₂番
上₂歲
上₂農
上₂賓
上₂壽
上₂算
上₂賢
上₂頭
上₂學
上₂禮
中₂山
中₂旨
中₂春
中₂夏
乘₂馬
乘₂黃
乞₂丐
乾₂和
五色線
任₂人
任₂子
作₂人
作₃興
伯₂道
使₂主
使₂車
使₂君
使₂者
使₂事
使₂命
信₂信₂
便₂巧
便₂宜
便₂旋
便₂習
促₂促₂
倒₂戈
假₃言
傳₂尸
傳₂乘
傳₂道
㒔₂㑛
先₂人
先₂天
六₂合
冠₂子
凍₂雨
切₂切₂
勞₂苦
勞₂勞
勞₃勞₃
勺₂藥
卓₂子
厭₂塞
厭₅厭₅
參₄天
參₄合
參₄伍
古₂老
司₂寇
吾₃子
呀₂呀₂
告₂天
告₂罪
和₂聲
呴₃呴₃
咽₅咽₅
啍₂啍₂
唶₃唶₃
唶₄唶₄
啑₂血
喋₂血
喪₂人
喳₂喳₂
喁₂喁₂
嗃₃嗃₃
嗛₃嗛₃
嘎₂嘎₂
嘐₂嘐₂
嘽₄咺
囂₂然
囂₂囂₂
埋₂冤
塗₂飾
塞₂門
填₂填₂
墐₂塗
增₂城
壓線
壙₂埌
壘₃石
壹₂鬱
夏₂首
大₃一
大₃人
大₃士
大₂王
大₃王
大₂夫
大₃公
大₃君
大₃宗
大₃官
大₃府
大₃和
大₂面
大₃皇
大₃風
大₃師
大₃學
夫₂人
央₂央₂
好₂生
好₂色
好₂事
好₂辭
嬛₂嬛₂
子₃愛
守₂道
宛₂若
尉₂頭
將₂事
將₃將₃
將₂領
少₂年
少₂時
少₂廣
尚₂儀
屏₂蔽
屏₂翰
屬₂吏
屬₂國
屬₂籍
左₂右
差₃人
差₄池
幕₂庭
幢₃幢₃
平₂平₂
平₂章
廣₂車
廣₂運
引線
強₂近
強₂辨
彈₂弓
彈₂子
彈₂射
彭₃魄
從₂服
從₅容
從₆從₆
徵₂調
忐₂忑
忳₂忳₂
忳₃忳₃
怫₂㥜
感₃動
慅₂慅₂
憲₂憲₂
憧₂憧₂
應₂門
應₂時
懵₂懵₂
扁₄舟
扇₂拂
扛₂幫
折₃折₃
抹₃布
拘₂攣
招₃摇
挑₂剔
振₂振₂
捷₂捷₂
提₃提₃
握₂手
攪₂搜
教₂授
散₂地
散₂逸
散₂鹽
文₂致
文₂飾
方₃命
施₄舍
施₄政
日長一線
易₂地
易₂道
昭₄昭₄
景₂象
晻₃晻₃
暴₂行
暴₂棄
會₂朝
會₂飯
朅₂來
朝₂日
朝₂市
朝₂事
朝₂參
朝₂陽
朝₂獻
枕₂席
柳線
校₂正
校₂官
柴₂門
格₃格₃
梵₂梵₂
棲₂遑
楸線
榜₃子
樂₂成
樂₂酣
橫₂生
橫₂行
正₂旦
正₂朔
步線行針
每₂每₂
比₂閭
比₂聯
氐₂人
汙₃行
汙₂漫
汶₃水
沈₅沈₅
沈₄重
沌₂沌₂
汩₂汩₂
汩₂越
泜₃水
泥₂溺
泥₂滯
洋₃洋₃
洸₂洸₂
洗₂馬
浟₂浟₂
淡₃淡₃
清₂切
清₂冷
添線
渠₂渠₂
淺₂淺₂
混₂混₂
淠₃淠₃
淫₃水
渾₄渾₄
湝₂湝₂
渢₂渢₂

溰₂溰₂
漸₂漸₂
漸₃漸₃
漼₂漼₂
漎₂漎₂
潢₄潢₄
濟₂水
濡₂水
濡₃水
瀼₄瀼₄

灌₂灌₂
炎₃炎₃
采₂服
玄₂耀

番₄番₄
番₄陽
當₂日
當₂州
當₂年
當₂面
當₂時
當₂道
疑₃滯
發₂發₂
皁絲麻線
皇₂皇₂
盛₂樂
監₂候
相₂好
省₂事
省₂納

磝₂磝₂
磷₂磷₂

税₆服
穰₂穰₂
空₂洞

粥₂粥₂
紅線
累₂重
累₂氣
累₂德
絲來線去
線香
線索
線腳
線裝
縣₂令
縱₂目
縱₂橫
纚₂纚₂
羨₃門
翁₂翁₂
聞₂問
職₂人
脈痬
脱₃脱₃
膏₂澤
膠₃膠₃
興₂致
艾₂服
若₂干
茸線
華₃陽
莫₂莫₂
葭₂萌
蔭₂敘
蘧₂蘧₂
蟫₂蟫₂
行₂子
行₃止
行₂行₂
行₄行₄
行₂作
行₃夜
行₂神
行₂貨
行₂間
行₂頭
衣₂被
被₂服
襪線
要₂言
要₂約
見₄地
規₂規₂
角₄角₄
觖₂望
解₃交
解₃官
解₅舍
言₂言₂
識₂别
越₂席
趣₂向
跁₂跒
躍₂躍₂
轉₂運
轉₂圜
辟₂人
辟₂地
辟₂言
辟₂除
辟₂匿
辟₂舉
辮線襖
迤₃迤₃
適₃人
遴₂柬
遺₂遺₂
鄉₂風
鄉₂學
酇₃縣
釋₂然
重₂言
重₂創
重₂話
重₂樓金線
量₂度
量₂試
金線草
金線魚
針線
鋪絨線石
鐵線蓮
長₂上
長₂年
長₃錢
閒₃氣
閒₃語
閒₃燕
閬₂苑
阿₃城
降₂服
陰₃陰₃
陶₃陶₃
雨₂毛
霅₄霅₄
青₂青₂
靡₂嫚
顛₂顛₂
風₂化
風₃示
風₃規
風₃議

養₂生
養₂老
養₂志
首₂服
骯₂髒
騎₂從
魁₃壘
鳥₃庭
齊₄明
齊₅明
龍₄勒
龐₂龐₂
龜₂坼

原始资源帖:

mdx词典的一大毛病是,解压提取出来的txt文件并不能恢复原始制作文档里的词条排列顺序,它很多时候比较讨厌,顺序对书和词典都是有意义的。

其他大佬如果手里有比较完善的《辞源》词头索引文件,可以共享一下,在此先行致谢。

辞源词条106856.txt (2.3 MB)
看是否有所帮助

1 个赞

谢谢助力,看了一下,不知道这个索引的排序原则是什么,似乎也和原纸本书不同,如何才能还原图像pdf中的词目排列顺序?

我也不清楚,你可以看一下词典凡例,看它的排序规则是什么,然后看能不能借助程序重排顺序。

13.單字按214部首排列。同部首内按筆畫數升次排列。同筆畫數的字按起筆筆形丶一|丿乛為序排列。每箇單字下的複詞按字數多少為序,先少後多。字數相同的,以第二字的筆畫數多少為序。筆畫數相同的,以第二字的起筆筆形丶一|丿乛為序。

有点复杂,我还不知道有什么程序模块可以给汉字以起筆筆形排序。我再观察研究一下您的索引,看有没有什么规律,它貌似存在着一种很有序的无序。

图片版不就是有序的吗?从mdx提取信息就行了。各位没用过这个切词mdx吗?

以及,阿弥陀佛版的源文件是有分享的。不出意外的话是有序的。
辭源整頁版100%.txt (3.6 MB)
辭源單欄版.txt (5.3 MB)

图片版原始制作文档可能有序,但从mdx转出来的txt文件就无序了,而且,如果添加了很多跳转词头的话,就很难(没法)用了。

你自己检查一下它们有没有正确排序,是不是一一严格和图像版《辞源》的词头排列次序相同?

MDX词典打包之后再解包,原始制作文件的词条排列顺序会被打乱,有序变无序(或者mdx格式设计者认为的某种序),无法再还原初始txt文档的词条顺序,这是公认的难题、缺点了。不知道为什么你不了解这一点,也挺奇怪的。

它对英文词典影响不大,因为一般都是字母排序,但中文词典、图书,原始文件如何排序,花样可多了,214个部首,笔画数,汉语拼音,年代,不一而足,统统被mdx内在的排序方式打乱了,无法从mdx词典本身还原。

谢谢,问题解决了,原来是12地支分集的顺序有点乱,我把它调整过来了。对照pdf图像比较了一些词条,也用程序跟图像版mdx的索引对比了一下,基本可以确认它是目前质量最佳的词头索引。

我用代码重新生成一下全文本文件。

辭源詞條(106856項,原始詞典排序).txt (2.3 MB)

1 个赞

更新2:

使用阿佛哥的文本化《辞源》补充了缺失的词头,目前索引中仅余两个怪字没找到释义:


主帖不允许编辑了,把更新后的辞源全文本提交在这里。

辞源 文本(原词典序).zip (15.3 MB)

1 个赞

mdx格式的自动排序好像是Unicode顺序

1 个赞

加一个ID。加一个ID。加一个ID。