請求 漢語大字典 的更完整版本 -- 我正在作 MDX

謝謝分享。

看來,我的TXT基本上是一樣的。總共有166,300 lines.
有同樣的tag,有同樣不統一的釋義號碼:(1)-(10)之後就用:⑪、⑫ . . .

區別在我的版本是從MDX unpack出來的,所以次序是按照mdx builder的詞條排法。應當沒差,因為這個數據的毛病不來自詞條的次序。

我用一些search的模式,能夠確定有起碼一百多條,paragraph tag 裡面的釋義內容擺錯了,歸於別條。毛病各種各樣,有的,把某個釋義句子的第一個字當做headword,分成新的詞條;有的,應是兩條混成一條;有的,headword打錯了(用上另一個異體字),使得headword和內容不和。

有的,我無法解釋他的原因,例如“扎”字條的第三、第四(zhǎ、zā)釋義組,居然擺在“用”字條後面。“扎”詞條和“用”詞條,內容在字面上沒有任何關係或是重疊的部分,所以我搞不懂這是怎麼回事。而且這兩條,在次序上又不接近。

我前面講得那些一百多毛病,出現在詞條前面,所以更明顯格格不入。可是有的擺錯的內容出現在詞條後面,這類就比較難找出來。

主要的問題在內容擺錯了。不成大事,因為我打算做個"綜合版":文字版,加上可以參考圖像板。光用文字版是不夠的。

3 个赞