广、尘、汉等查不到
这个词典内容里没有简体字头,你要输入繁体字才能查到,或才开启你的词典软件里面的自动转换功能之类的
Impact 之前提過了,我今天也碰上了。
問題是樣式信息插在 href 地址之間。這個錯誤出現起碼 233 次。
我用這個正則來搜:
href=“entry://[^”]+[<>]
也許也有其他類似的錯誤,我沒特別檢查。
2018 版 沒有這個問題。
“八音匣”词条也不完整,肯定漏掉一些字。
有的字只有 1 號,沒有 2 號。一直都這樣,不知道原來的數據是不是漏掉了內容。
也許漢字代碼最讓人疑惑的兩個字:
夐(从suī夊)統一碼 U+5910
敻(从pū攴攵)統一碼 U+657B
電子字典經常把兩者搞混亂。辭源第三版只收 歸於 pū攴 部首的敻,但字頭寫成 从suī夊的夐!而且在釋文中,兩者混用。
漢語大詞典的電子數據也很隨便,有時採納从suī夊的,有時寫成从pū攴的。
所以,要查出相關的搭配詞,完全靠運氣。
搞笑的是从pū攴攵的敻,釋文說“義未詳”,但也有搭配詞:
敻(釋文:“義未詳”。)
遼敻
悠敻
遐敻
阻敻
險敻
華敻
儵敻
从suī夊的有19個詞條:
夐(釋文:“xiòng 遼遠。;xuàn 營求。)
夐遠
夐迂
幽夐
高夐
夐絕
夐異
危夐
夐古
夐別
夐夐
夐寥
夐明
夐然
夐阻
夐隔
寥夐
清夐
澄夐
空夐
大多都是“遼遠”的意思,但採納的字不規範。
這兩組詞都需要加跳轉。
各類字書基本都是將 敻
定向至 夐
:
-
康熙字典
漢語大字典
均收兩字:夂部
之夐
;攴部
之𢿌
-
王力古漢語字典
歸在攴部
,段落末尾加註說文・𥄎部
,字形卻用夐
-
字源
歸在𥄎部
,字形仍用夐
-
故訓匯纂
古音匯纂
歸夂部
,附註說文・𥄎部
,字形均用夐
內,《說文》:入也。
舊字體的康熙字典,“內”字(冂入),歸“入”部。新字體的“内”(冂人),《漢語大詞典》歸“冂”部,而不是mdx標的“人”部。
這層信息是後來套上去的,所以很多地方跟印本說法不合。
《辭源》第三版也用新字體的“内”字(冂人),但還是歸“入”部 — 雖然字體並沒有“入”字,呵呵。這點,《辭源》還是遵從古說法。
的確是後加的,圖書原始數據是歸在 冂部
“戊”字條,釋義#3:
“古代以十榦配五方,戊居十榦之中…”
看來是轉換而引起的。2018版mdx是對的:
印本(釋義#2):
相關的問題:
2018版mdx仍有(八個筆畫的)“幷”字頭,現在沒有了,被轉換或刪掉了。我曾經也注意到很多釋文裡的“幷”字被換成“並”。
“乾¹”词条下第三项:“加工製成的幹的食品。如餅乾、葡萄乾。”与例句中“…留到冬天吃的嫩苞米幹子”,干转换错误。
说来有点好奇,汉语大词典没有和实体版书籍一样,繁体词头,简体释义,例句古文繁体,现代文简体的电子版吗?我找到的都是全转换繁体的版本。
不知道中华书局的汉语大词典的在线版是什么情况。原来学校有订购,没有珍惜。现在订购一年要500起。
http://refbook.ancientbooks.cn/DocDictionary/dicBookMessage.jspx?id=1776209
我找过多种格式的《汉语大词典》,stardict、mdx、dsl,都试过了,要么全繁体,要么全简体,都是转换过的。
倒是有从2.0光盘抽出来做成的pdf,就和印刷版一样,不过应该漏了一些词条。我从这个pdf抽取文字做了Access,因为手痒自己转成了繁体,再也无法还原。也懒得重做,就这样用了。配合光盘和图像本用。
知网的版本可以检索,当然,只能看到开头的部分。
汉语大词典&康熙字典 (知网)
http://hd.cnki.net/kxhd/
知网和籍合网的数据就是繁体词头,简体释义,书证古文繁体,应该是没有经过转换的。不过知网和籍合网的数据都没有订补的部份。
換言之,引證是用原文;若引用近代資料會有簡體字。
我在 Pleco app 裝了(出版社提供的)漢語大詞典:引文是用原文;書名、人名用簡體字。這個模式跟紙書一樣。
而且 Pleco 版也有訂補的內容。我當時買的,好想只花了40塊美金,好便宜。劣點是只能在手機上用。
anyway, 希望有高人可以抓知网或籍合网的數據。
這不成問題,把兩個數據合在一起就是了。訂補的部分沒那麼大,雖然要整理,但不是批量轉換那種無可救的問題。
籍合网爬虫封账号。
籍合网是中华书局旗下网站,编辑力量更为可信。
靠游兵散勇去文本化《 故训汇纂》之类大部头的,真的没啥意义