制作方法
一律分别用 Gemini 2.5 Pro 和合合OCR识别,然后对校两种模型的输出结果,凡不一致处,理断或者查看原书图像纠正。Gemini 2.5 Pro 输出的格式比较完善,合合OCR则文字准确度高,以前者为底本,对校中发现的错误在它的基础上编辑修改。
品质
《全宋詞簡編》是当代印刷的图书,清晰且有标点,比较容易处理,因此最终文本品质相对较高。《唐五代詞選》则是民国印刷的版本,只有句读,并无进一步整理,所以在添加新式标点上可能存在毛病,需要进一步核校。
问题
发现书中存在少量简体、繁体、异体字混用的情况,比如“烟煙、凭慿、袅嫋”等(在当代意义上讲),如何进一步处理尚需斟酌,目前暂时主要以原书用法为准。
唐五代詞選 成肇麐 選輯.txt (60.4 KB)
全宋詞簡編 唐圭璋 選編.txt (634.4 KB)
原书参考图像
唐五代詞選 成肇麐選輯.pdf (3.2 MB)
全宋词简编 唐圭璋 选编 - 上海古籍出版社,1986.pdf (17.5 MB)
注:参考图像并非严格的制作底本,我用的底本或者适合机读而非人读,或者体量较大,暂时就不贴了,但内容基本是相同的,只是出版日期和扫描制作机构不一样。