现在如果有心做四库全书文本标点的工作,有一个救急的办法,就是先放过已经标点整理过且电子化了的书,像24史这些大部头,也放过那些已经出过整理本的书(历年各出版社点校过的古籍很多),同样,“识典古籍”标点过的四库古籍不做,把四库全书里那些在任何地方都没标点过的书找出来。
这些没标点过的书里面,百万以上字的巨作也先搁在那里,那么剩下的就不会很多,然后交给有100万 token 输入窗口的Google Gemini 1.5 Pro ( https://aistudio.google.com/ )去标点处理。我测试过,它可以上传一整本 txt 格式的四库文本,然后遵循指令给你标点一遍,正确率相当高,虽然不是完美的,目前也足敷使用了。
不过这个工作,个人来做,也是比较麻烦的,且可能要花销一定的费用。