成肇麐《唐五代詞選》、唐圭璋《全宋詞簡編》纯文本

制作方法
一律分别用 Gemini 2.5 Pro 和合合OCR识别,然后对校两种模型的输出结果,凡不一致处,理断或者查看原书图像纠正。Gemini 2.5 Pro 输出的格式比较完善,合合OCR则文字准确度高,以前者为底本,对校中发现的错误在它的基础上编辑修改。

品质
《全宋詞簡編》是当代印刷的图书,清晰且有标点,比较容易处理,因此最终文本品质相对较高。《唐五代詞選》则是民国印刷的版本,只有句读,并无进一步整理,所以在添加新式标点上可能存在毛病,需要进一步核校。

问题
发现书中存在少量简体、繁体、异体字混用的情况,比如“烟煙、凭慿、袅嫋”等(在当代意义上讲),如何进一步处理尚需斟酌,目前暂时主要以原书用法为准。

唐五代詞選 成肇麐 選輯.txt (60.4 KB)
全宋詞簡編 唐圭璋 選編.txt (634.4 KB)

原书参考图像

唐五代詞選 成肇麐選輯.pdf (3.2 MB)
全宋词简编 唐圭璋 选编 - 上海古籍出版社,1986.pdf (17.5 MB)

注:参考图像并非严格的制作底本,我用的底本或者适合机读而非人读,或者体量较大,暂时就不贴了,但内容基本是相同的,只是出版日期和扫描制作机构不一样。

附送两个相关的文本资料:

1)
明词综 十二卷 [清] 王昶选辑.txt (226.9 KB)

它是我在网上收集来的,略微编辑整理了一下,似乎子夜星网站( http://www.ziyexing.cn/shici/mingcizong/mingcizong_index.htm )上的文本质量更高,但它需要在线阅读使用。

2)
清词菁华.txt (432.5 KB)
目錄.txt (24.8 KB)

这是本站网友 胡羁子 OCR、校对的,友情赠送予我,在此公开分享,想必也没什么冒犯。