Whisper+剪映制作精听材料

我写了个脚本用LLM来断句,做了一些测试分享一下。
我起先觉得这事情LLM来做应该是轻而易举,甚至小模型也能搞定,但实际测试了一下远远低估了它的难度,因为这事看起来简单但需要LLM具有非常高的指令遵循度,而这恰恰是LLM不具备的。
由于低估了它的难度,我定的指标可能过高,我按照Netflix的标准,甚至提示词都是抄的Netflix的说明,严格规定了每行不超过42个字符,还有一大堆哪里该断哪里不该断。测试结果是,小参数模型基本上搞不定。但是即便是小参数模型的效果,也远超SpaCy这样的预训练的工具。
我测试了一圈的结论是Gemini 2.5Pro的效果最佳,几乎完美遵循指令,但是缺点是又慢又贵。
由于Gemini Pro的经历我放弃了所有推理型,因为太慢。
GPT 4.1 和deepseek是不怎么理会42字符限制,断句的位置倒是没啥问题。
其他像是Gemini 2.5 flash、GPT 4.1mini都不太行。
Claude实在太贵连测都懒得测。
国产的像是豆包啥的根本不理你直接输出没断句的结果。
最终我还是选择了deepseek v3,速度快,便宜,还有大量的免费额度可以用。
你可以试试。