罗贝尔法汉词典(一词一图)

你是用fitz直接转的吗?我试了转html再提取词头不好用,就没试别的方案了。

pdf这种文件格式可谓不思进取,也落后于时代了,它只保证最终视觉呈现的正确和一致,并不维护原始的文本flow、layout和结构,把这些信息也存储下来,并不会增加多少数据量,却无疑会大大方便数据进一步的转换和利用。