1468_0【定稿】.docx (11.6 KB)
1468_0【夸克】.docx (11.5 KB)
1468_0【全能王】.docx (12.0 KB)
这是1468页第一栏的ocr识别结果。总体而言付费软件的识别效率还是有保障的,标记为定稿的是全能王与夸克扫描文本对照校订后的文本,以我过往经验而言,如果再补入word扫描文本进行三方合校,校准度还可以上升一点,刨除拼音标注中音节隔断的空格字符和词典文本中原典出处引文与例证引文间的竖杠间隔符(这两者是最有可能扫描不准或扫描不出的字符),精度可以在1/10000以上。如果全书要转制成txt格式可校阅索引文本的话,还是很可以一为的,就是得耗费极大的心力。依照我的效率,半小时过稿量大概5—10万字符,平均每天20分钟的时间占用,通算下来也要将近半年才能完成初校文本,工程量还是挺大的。
1 个赞