这个有点牛,相当于二次OCR了,与夸克的互补
会员OCR好像不需要另行收费
不过另一边是Abbyy的垃圾ocr结果,垃圾信息太多了,我看看把别的ocr嵌入文档里。
项目完成可以出一篇OCR与校对的经验教程了
OCR直接TXT输出文本也不带格式
请问您分栏裁切用的是本站有介绍过的技术吗?以及想知道为什么要分成九个文件来OCR呢,是夸克批量处理的限制吗?
夸克批量有99页限制,分栏裁切用的是老马CE自动裁切加手动校对
我找到了一个办法,你是会正则的大佬肯定好解决,docx的本质是openxml文件压缩为zip,解压后打开word目录下的document.xml,w:left标签表示缩进,有一个Tab键缩进的行w:left=“220”,而其他w:left=“20”,貌似是这样,你可以试试看。以上纯属胡诌,懂行的大佬轻喷。
拉丁语拼写检查词典.zip (3.4 MB)
dict-la-old.oxt古典拉丁语
dict-la.oxt通用
搞错了,这是用于goldendict的hunspell。
确实如此,那这个可以处理
然后就是你那校对的软件看看是用doc还是用纯文本哪个更合适,我再决定先处理成纯文本,还是校对完再处理
txt纯文本(也可以保存成doc格式,这样能分页)与单栏图片校对,三栏doc 与整页图片校对
转成txt拆成单栏挺好的,夸克搞出来的doc格式挺混乱的。这个软件是finereader自带的,大家应该都有。我先打开软件试试看哪种更理想。
可以用这个去试:商家给的样章_第1页.txt (4.6 KB)
好用的话,我就处理成这个格式
今天晚上抽空翻了好几页文本,也试了试万兴和福昕二家的ocr嵌入pdf,大家的ocr都比较差,使用Abbyy Compare Documents比较文本纯属是浪费时间,夸克的效果已经非常接近全部正确,而没有其他家的ocr可以匹敌来互补。
个人认为校对只需要关注空格和生僻字,甚至不用对比pdf图片,所以说还请Mandolin老兄把doc全部转换成txt,直接对txt下刀就足够了,很多空格的添加和删除完全可以靠直觉。
夸克和百度OCR高精度版比如何?
还有个建议就是转换成txt时保留页码,未来可以同时做一个图片版,有极少的错误可以交给用户反馈。
百度ocr高精度接口我没注册,不过白描大概就用这个接口,离夸克效果差远了。我是用更多人推荐的图片翻译接口,效果也不好。
好神奇。夸克是自研的OCR技术吗?是哪个公司的产品
嗯,正是我所想,其实OCR对字母的识别正确率是非常高(几乎可以认为没有错误),出错的大概都是标点和汉字。
甚至不校对直接制成 mdx 使用想必也不会给使用带来太大的问题,并且可以在文字版的同时附上图片,查询过程有疑问可以随时核对原图。
可以先制成粗糙 mdx,先用。同时校对也在线协作开着,等项目完成再出最终准确版也不赖。
应该是自研的,没有看到和任何一家合作的消息,目前技术最顶尖的合合也有类似的,图片转doc的服务,不过完全是三脚猫水平。 TextIn - 在线免费体验中心 - 图片转word