Skip to content

faster 和 openai 模式的区别

将语音转为文字,即语音识别是视频翻译、语音AI指令等产品的核心功能,在开源领域,自openai开源whisper以来,几乎所有流行的语音识别模型都是whisper的变形或转换,比如以速度号称的faster-whisper或专注于多角色识别的whisperx,均是基于openai-whisper转换和微调而来的。

那么已经有了足够牛逼的openai-whisper了,为什么还产生那么多的变形?简而言之,whisper虽然足够强,但也有不少局限,尤其在侧重某些方面要求时。

比如openai-whisper在识别时速度太慢;在切分音频时只可以30秒切割等,正因为这些局限,社区才踊跃出一批变形品。

视频翻译配音项目里集成的是原生openai-whisper和faster-whisper,选择前者自不必说,稳定可靠环境要求简单,小白新手友好。而选择后者是看中它的速度较快、占用资源较少,而且识别准确度并不差于openai-whisper。

那么既然faster-whisper在不损失准确度的情况下提高了速度、减少了资源消耗,为什么不只集成它就好了,干嘛还多此一举集成openai-whisper呢?

没错,0.986版本开始我也是这么想的,因此该版本之后放弃了openai-whisper,只使用faster-whisper,但它的最大劣势就是对环境要求较高,如果想使用英伟达显卡加速的话,除了同openai-whisper一样需要cuda环境外,它还要求额外部署cudnn和cublasxxx.dll,而这两个工具的安装可不像cuda一路下一步就傻瓜般的完成了,需要确定程序路径、设置环境变量、将dll文件复制到System32下等等繁琐操作。自0.986以来,不少新手都卡在这一步。

因此1.09版本开始,同时支持openai-whisper和faster-whisper,给用户更多选择。

如果追求更快的速度,并且有能力安装配置cudnn cublasxx.dll等,那就选择使用速度更快的faster-whisper。

如果是新手,不想折腾复杂的安装配置,就只想赶紧用起来,那就选择openai-whisper。

要注意两者下载的模型是不同的,openai-whisper模型下载解压后,只是一个pt文件,直接放软件目录下的models文件夹内即可。

而faster-whisper的模型解压后是一个很长名字的文件夹,需要将该文件夹整体复制进models目录中。这也是一个openai-whisper相比faster更适合小白的点。

此外,其他whisper都是基于openai-whisper的变种,那么当openai更新他们的模型后,其他变种才能开始研究新模型再去更新变种,也就是他们只是追随者,而openai-whisper才是源头,集成它,能在openai更新模型后,第一时间替换为新模型。

简单总结下:

openai-whisper更稳定、对环境要求更低使用简单,但速度慢消耗GPU显存多。

faster-whisper速度快、消耗GPU更少,但安装麻烦,除了cuda还需要安装cudnn cublasxx.dll。

当然这一切的前提是拥有英伟达显卡,如果计算机压根没有英伟达显卡,或者有,但不想或不会安装cuda,那么两者使用任意一个都可以,因为不使用cuda加速的情况下,仅在cpu上运算,二者对环境没啥要求,下载即用,速度也都是一样的慢。

开源地址

https://github.com/jianchang512/pyvideotrans/

github.com/jianchang512