文本识别 OCR 引擎对比

Ernie-4.5-vl-28b 中文OCR能力比较强,但在指令服从这方面表现就差劲一些,有时让它ocr,输出原文,却给你来一通图像内容的总结评论,最好 ai 社区能在它的基础上微调改进一下。

此前其他开源OCR模型我测试过很多,都吹得很牛,但就中文OCR来说,按照我的标准基本是不可用的,连一些通用但稍微生僻的字都不认识,识字量大概5000-8000之间吧。Ernie-4.5-vl-28b的具体识字能力不好确定,我粗略的感觉是可能达到10000-12000这个区间了,跟Gemini 2.5的中文识字水平有点近似,在一个梯队。

我再补充一个测试样例:

不可也贵妃自处子入宫上绝幸寵傾後宫上常與遊者禄山也禄山日與贵妃嬉遊帝從觀以為咲此得不謂之上慢乎贵妃慮其醜聲落民間乃以禄山為子一日禄山醉戲無禮尤甚贵妃怒罵曰小鬼方一奴耳聖上偶愛爾令得官出入禁掖獲私於吾尚敢爾也禄山曰臣雖出微賤惟帝王能興廢也他皆無畏焉臣萬里無家四海一身死婦地下臣且不顧叱贵妃復引手抓贵妃胷乳間贵妃泣曰吾私汝之過也罪在我而不在爾爾今不思報我尚以死協我時宫女王仙音傍立乃大言安禄山夷狄賤物受恩主上蒙愛贵妃乃敢悖慢如此我必奏帝禄山猶不止云奏帝我不過流徒極即刑誅贵妃未必無罪得與貴妃同受禍我所願也此所為魚目得伴明珠入水碔砆同白玉入火又何害焉會高力士賫福建緑荔枝上贵妃禄山乃忸怩引去力士乆在屏外躬聽且知所爭力士上傳帝旨跪進荔枝乃去贵妃使人從力士謝曰慎無言適來之事高曰帝非贵妃當受黜廢出居于外則主人不樂可知為我謝贵妃臣知此乆矣非今日也臣宫中老物也豈不知愛君父乎

這倒不礙事,主要你這段明顯看出點問題——舊版古籍識別時效果明顯不如新式古籍,簡繁混雜,個別字符也識別錯了。就不知道OCR文本量一多,會不會衍生出更多的問題 :sweat_smile:

简繁混杂这类问题可能是通病,不易解决,我不久前用 Gemini 2.5 pro 识别了一本繁体竖排的书,整体来说没啥大毛病,但同样存在少量混用简体字、异体字的问题,甚至在里面发现了日文字体。

這就是所謂的模型幻覺吧,老毛病了