【疑难词目(词头/条头)索引制作求助】请各位前辈指教如何从这本《拉汉科技词典》提取词头和对应页码?

空格方面的问题比较多,个人认为对使用正则加标签以及多释义的换行之类的造成问题。以及释义跨行跨栏跨页没有ocr到一起,这样的问题也有。

行,我先看看OCR质量,处理试试,看有没有啥大问题,有大问题的话,也可以搞个粗校版用着先。

全球首发(纯吹牛的)
自制适用于Microsoft Word的拼写检查的词典,不可用于WPS Word。
拉丁语是古老语种,没有微软自带的,只好如此。可以覆盖20%左右的此词典词汇。(科技词这么多,无能为力啊)

Latin Spell Check

1 个赞

原来word中可以自定义拼写检查所用的词典,学习了。(“文件”→“选项”→“校对”→“自定义词典”)

但是,如果词汇覆盖率低(20%左右),是否会出现满屏红波浪的恼人场景呢?感觉可能对校对起到干扰作用。

做着玩的,没多大作用,好歹知道一些词肯定是对的。不过ocr正确率已经很高了,目前当务之急还是把文本修改得符合格式规范和变形处理吧。

我这么做也是提供一种思路,如果哪位大侠愿意从各种专科英语词典和维基百科中提取出单词加入到我做的这个里面,就能增加覆盖率,毕竟英语科技词也有很多直接拿拉丁语。不过也会导致拼写检查词典成分不纯,我也没这么干。
这上面提供的是一个初版,我之后再修订一下。

这本OCR校对,后来怎么样了,有没有后续?

我在校对中,别急,为各种日常事务所扰,进度有点慢,得明年了。也许会一直鸽,但会坚持的。

1 个赞

我在学习语法中,别急,为各种日常事务所扰,进度有点慢,得明年了。也许会一直鸽,但会坚持的。

1 个赞