Whisper+剪映制作精听材料

zambast · 2024 年11 月 3 日 12:04

目前就是whisperx做得最好，它的原理是vad分辨切掉无人声部分后合并成30s一段然后跑fast-whisper，以牺牲整体质量（相当于减少了上下文）为代价来消除hallucination。其他一些项目大多没做这一步，所以hallucination就是比whisperx严重。就word级校准来说whisperx和whisper timestamped各有千秋，甚至后者还更好些，但是后者的hallucination就更重。其他一些项目也大多在vad上做文章，但是vad这块目前也没有特别完美的，各种算法都有缺憾，而且哪怕vad完全切掉了无人声部分，Whisper还是会出现hallucination的，只有减少块大小（一般认为30s以内概率较低）才能尽可能避免。还有就是模型的选择，有很多人报告large-v3的hallucination远比large-v2大，所以如果你如果不用whisperx而用其他的whisper项目的话，记得用v2，whisperx倒是没啥区别。
另外就是我上面提到的，事先进行人声分离，人声分离本身有利有弊，有可能导致Whisper的识别率下降，但是能提高vad的准确率。
还有个土方法就是多跑几个备用，如果是做字幕的话合并几个基本上能凑出一个差不多完美的字幕来，自己随便用用的话就快捷键切换。