Whisper+剪映制作精听材料

目前就是whisperx做得最好,它的原理是vad分辨切掉无人声部分后合并成30s一段然后跑fast-whisper,以牺牲整体质量(相当于减少了上下文)为代价来消除hallucination。其他一些项目大多没做这一步,所以hallucination就是比whisperx严重。就word级校准来说whisperx和whisper timestamped各有千秋,甚至后者还更好些,但是后者的hallucination就更重。其他一些项目也大多在vad上做文章,但是vad这块目前也没有特别完美的,各种算法都有缺憾,而且哪怕vad完全切掉了无人声部分,Whisper还是会出现hallucination的,只有减少块大小(一般认为30s以内概率较低)才能尽可能避免。还有就是模型的选择,有很多人报告large-v3的hallucination远比large-v2大,所以如果你如果不用whisperx而用其他的whisper项目的话,记得用v2,whisperx倒是没啥区别。
另外就是我上面提到的,事先进行人声分离,人声分离本身有利有弊,有可能导致Whisper的识别率下降,但是能提高vad的准确率。
还有个土方法就是多跑几个备用,如果是做字幕的话合并几个基本上能凑出一个差不多完美的字幕来,自己随便用用的话就快捷键切换。

1 个赞