【疑难词目（词头/条头）索引制作求助】请各位前辈指教如何从这本《拉汉科技词典》提取词头和对应页码？

Mandolin · 2023 年8 月 11 日 15:56

这个有点牛，相当于二次OCR了，与夸克的互补

匿名1495 · 2023 年8 月 11 日 15:58

会员OCR好像不需要另行收费

amob · 2023 年8 月 11 日 16:02

不过另一边是Abbyy的垃圾ocr结果，垃圾信息太多了，我看看把别的ocr嵌入文档里。

SilasYang · 2023 年8 月 11 日 16:04

项目完成可以出一篇OCR与校对的经验教程了

匿名1495 · 2023 年8 月 11 日 16:06

OCR直接TXT输出文本也不带格式

SilasYang · 2023 年8 月 11 日 16:08

请问您分栏裁切用的是本站有介绍过的技术吗？以及想知道为什么要分成九个文件来OCR呢，是夸克批量处理的限制吗？

匿名1495 · 2023 年8 月 11 日 16:15

夸克批量有99页限制，分栏裁切用的是老马CE自动裁切加手动校对

amob · 2023 年8 月 11 日 16:52

我找到了一个办法，你是会正则的大佬肯定好解决，docx的本质是openxml文件压缩为zip，解压后打开word目录下的document.xml，w:left标签表示缩进，有一个Tab键缩进的行w:left=“220”，而其他w:left=“20”，貌似是这样，你可以试试看。以上纯属胡诌，懂行的大佬轻喷。

amob · 2023 年8 月 11 日 17:28

拉丁语拼写检查词典.zip (3.4 MB)
dict-la-old.oxt古典拉丁语
dict-la.oxt通用

amob · 2023 年8 月 11 日 17:38

搞错了，这是用于goldendict的hunspell。

Mandolin · 2023 年8 月 12 日 01:07

确实如此，那这个可以处理

然后就是你那校对的软件看看是用doc还是用纯文本哪个更合适，我再决定先处理成纯文本，还是校对完再处理

txt纯文本（也可以保存成doc格式，这样能分页）与单栏图片校对，三栏doc 与整页图片校对

amob · 2023 年8 月 12 日 02:53

转成txt拆成单栏挺好的，夸克搞出来的doc格式挺混乱的。这个软件是finereader自带的，大家应该都有。我先打开软件试试看哪种更理想。

Mandolin · 2023 年8 月 12 日 03:10

可以用这个去试：商家给的样章_第1页.txt (4.6 KB)

好用的话，我就处理成这个格式

amob · 2023 年8 月 12 日 13:33

今天晚上抽空翻了好几页文本，也试了试万兴和福昕二家的ocr嵌入pdf，大家的ocr都比较差，使用Abbyy Compare Documents比较文本纯属是浪费时间，夸克的效果已经非常接近全部正确，而没有其他家的ocr可以匹敌来互补。
个人认为校对只需要关注空格和生僻字，甚至不用对比pdf图片，所以说还请Mandolin老兄把doc全部转换成txt，直接对txt下刀就足够了，很多空格的添加和删除完全可以靠直觉。

random · 2023 年8 月 12 日 13:38

夸克和百度OCR高精度版比如何？

amob · 2023 年8 月 12 日 13:39

还有个建议就是转换成txt时保留页码，未来可以同时做一个图片版，有极少的错误可以交给用户反馈。

amob · 2023 年8 月 12 日 13:39

百度ocr高精度接口我没注册，不过白描大概就用这个接口，离夸克效果差远了。我是用更多人推荐的图片翻译接口，效果也不好。

random · 2023 年8 月 12 日 13:40

好神奇。夸克是自研的OCR技术吗？是哪个公司的产品

Mandolin · 2023 年8 月 12 日 13:40

嗯，正是我所想，其实OCR对字母的识别正确率是非常高（几乎可以认为没有错误），出错的大概都是标点和汉字。

甚至不校对直接制成 mdx 使用想必也不会给使用带来太大的问题，并且可以在文字版的同时附上图片，查询过程有疑问可以随时核对原图。

可以先制成粗糙 mdx，先用。同时校对也在线协作开着，等项目完成再出最终准确版也不赖。

amob · 2023 年8 月 12 日 13:43

应该是自研的，没有看到和任何一家合作的消息，目前技术最顶尖的合合也有类似的，图片转doc的服务，不过完全是三脚猫水平。 TextIn - 在线免费体验中心 - 图片转word