請教:四庫全書繁體文本,如何用AI把標點全部加上去?

中华书局的古联,因为试用需要注册,我没用过。或许古文标点准确率比较高,因为它有别家不仅具备的优势,即自有庞大的高质量标点古文数据库,这些网上的爬虫抓不到,也就没法加入通用大模型的训练数据集。

龙泉寺的古籍酷现在也需要使用注册了,记得以前公开、免费时我测试过,效果一般。

北大推出的“ 吾与点”,在我的有限测试用例里,性能是比较差的,可能还不如某些本机CPU就能跑的开源小模型 (比如 raynardj/classical-chinese-punctuation-guwen-biaodian · Hugging Face ),不清楚是什么问题。

至于大语言模型搞汉语古文标点,各家公司不同模型的不同“系列”、“版本”正确率千差万别。自己吹牛逼多么多么厉害,可能没人当回事,从相对可信的 LMSYS Chatbot Arena 跑分成绩和我自己的使用感受来说,中文数据处理能力三强目前应该是Google Gemini 1.5 Pro,chatgpt 4o(或者gpt 4),以及Anthropic刚刚推出的Claude 3.5 Sonnet。

1 个赞