词典类图书PDF文档版面自动分析、加工的初步探索

我这个工具是按词条对比的,也是显示每个OCR版本的差异的,而且可以应用其中的更改,一页也可以显示多条内容,也能导入pdf对比图像。

可以加个视频演示。

你可以尝试用你的方法比对一下日汉双解词典头一百页,看看实际效率如何,我全程用的全能王和豆包两个OCR文本。对应的内页截图在这一个帖子 关于AI多模态大模型辅助双语词典校订路径的一点思考——试以《现代日汉双解词典》为例 - 技术交流与词典编修 - FreeMdict Forum。对应的OCR文本、初校文本看我这个帖子49、57楼上传的文档。我实际校对下来,每一百页大概耗时一小时四十分到两小时。要强调的一点是,我校对时连同把发现的原纸质印本的排印错误也给校改过来了,并且有在岩波国语辞典、明镜国语辞典等日语电子辞书以及沪江小D线上词典、纸质词典之间进行互相观照