請教：四庫全書繁體文本，如何用AI把標點全部加上去？

mixivivo · 2024 年6 月 23 日 13:24

中华书局的古联，因为试用需要注册，我没用过。或许古文标点准确率比较高，因为它有别家不仅具备的优势，即自有庞大的高质量标点古文数据库，这些网上的爬虫抓不到，也就没法加入通用大模型的训练数据集。

龙泉寺的古籍酷现在也需要使用注册了，记得以前公开、免费时我测试过，效果一般。

北大推出的“ 吾与点”，在我的有限测试用例里，性能是比较差的，可能还不如某些本机CPU就能跑的开源小模型（比如 raynardj/classical-chinese-punctuation-guwen-biaodian · Hugging Face ），不清楚是什么问题。

至于大语言模型搞汉语古文标点，各家公司不同模型的不同“系列”、“版本”正确率千差万别。自己吹牛逼多么多么厉害，可能没人当回事，从相对可信的 LMSYS Chatbot Arena 跑分成绩和我自己的使用感受来说，中文数据处理能力三强目前应该是Google Gemini 1.5 Pro，chatgpt 4o（或者gpt 4），以及Anthropic刚刚推出的Claude 3.5 Sonnet。