感谢你能为这部词典付出这么多精力和时间,我没想到这本书能有这么多低级错误。我没有要否定你的劳动价值的意思。
我谈论和建议加校记的是释义、音标、义项之类的主体内容,我希望无论如何也要保留这些内容的原貌。《汉语大词典》光盘版的前车之鉴大家都很清楚吧?光盘制作者和后续修改者随意窜改内容还不加校记的做法实在让人头疼。至于写错标点、写错字和格式不一这种低级错误当然没有保留原貌和加校记的必要。这是词典编辑的错误而不是学术性错误。文本格式上的问题只关乎文本的使用体验,作为电子词典的制作者当然是能改就改。
你说的原文标点失误,体例不一的问题确实很棘手,但MDX是基于HTML的文件,这种问题只取决于你想要用怎样的方法解决。
使用电子化文本进行学术研究的问题,我相信只要有内容基本准确的电子版可用,没有学者想要在纸本上进行所有研究工作。高效的做法是用电子版查询一些一旦出错可以一眼看出的内容,只在有必要确认内容准确性的时候再动手翻检纸本。但LLM OCR相比传统方法多了一层AI幻觉的可能,你说的对,学术研究确实不应该使用AI输出的文本。