Skip to content

视频翻译软件的核心原理是:根据视频中的说话声音识别出文字,然后将文字翻译为目标语言文字,再将翻译后的文字进行配音,最后将配音、文字嵌入视频。

可以看到第一步就是从视频中的说话声识别出文字,识别精确度直接影响到后续翻译和配音。

faster-whisper(本地)语音识别渠道

这是基于OpenAI的开源whisper转换后的模型,就如名字所暗示的,识别速度更快,也不降低准确度。

image.png

选择faster模式后,即可在右侧选择要使用的模型,第一次使用将在线下载模型,然后就在本地进行语音识别,不会上传你的文件到互联网。

image.png

模型选择

tiny --> base --> small --> medium --> large-v3-turbo --> large-v1 --> large-v2 --> large-v3

从前到后模型尺寸越来越大,识别精确度也越来越高,需要的内存和显存也越来越多。

建议至少选择大于等于large-v3-turbo的模型,效果最佳的模型是large-v3

.en结尾的模型:tiny.en->base.en->small.en->medium.en 和以distil开头的模型:distil-large-v3 -> distil-large-v3.5,只可用于英文发音的视频。

该渠道最佳配置

为达到最佳语音识别效果,请参考以下设置

  1. 模型选择 large-v3 (确保计算机内存大于16G 或 显存大于10G ),若不满足可尝试使用large-v1/large-v3-turbo模型.
  2. 明确指定发音语言,确保和视频中语音所用语言一致
  3. 菜单-工具-高级选项-语音识别参数 区域:将最短语音持续毫秒设为 1000 ,最长语音持续秒数设为大于等于 5 的值,不要选中Whisper预分割音频

此处需注意,如果你需要配音并且配音角色是clone,即克隆原始发音音色进行配音,那么强烈建议将最短语音持续毫秒设为 3000 ,将最长语音持续秒数设为 10 ,因为 语音克隆时会自动将字幕时长对应的原始语音片段作为参考音频,而多数配音渠道均要求该参考音频时长在 3-10s 之间,否则配音很可能失败。 同时应该选中 Whisper预分割音频以及合并过短字幕到相邻,以确保字幕时长能够落在 3-10s 之间

  1. 如果原始语音不够清晰或者有噪声,请选中 降噪
  2. 如果你不使用clone角色,并且希望识别后的字幕尽可能短小,以便适配竖版视频,可适当降低 最长语音持续秒数,例如设为 3 或 2. 如果有配音的话,可同时选中二次识别

二次识别: 在选择配音并选择了嵌入单字幕时,选中二次识别意味着,将在配音完毕后再次对配音后的音频文件进行语音转录,生成较为简短的字幕嵌入视频内,确保字幕和配音精确对齐

CUDA 加速

为加快任务速度,在Windows和Linux上,如果有英伟达显卡,可配置安装CUDA和cuDNN环境后,启用CUDA加速,将能明显提高执行速度。

image.png

查看CUDA和cuDNN安装教程

手动下载 faster-whisper(本地) 渠道的模型

默认在第一次使用某个模型时,将自动在线下载,原始模型均在国外huggingface.co或国内镜像hf-mirror.com,因模型较大以及网络问题,可能会遇到下载失败或下载模型不完整的问题,可参考以下方法手动下载。

请选择你想使用的模型,效果最佳的模型是 large-v3, 未使用CUDA加速时,需保证内存不低于16G,CUDA加速请保证显存大于10G

  • 下载 tiny 模型

    1. 创建文件夹:在 sp.exe(sp.py) 同目录下的 models 文件夹内创建models--Systran--faster-whisper-tiny 文件夹
    2. 打开模型下载地址: https://huggingface.co/Systran/faster-whisper-tiny/tree/main
    3. 将该页面的所有 .json/.bin/.txt 文件下载后复制到上面创建文件夹内即可,若已存在可直接覆盖。
  • 下载 tiny.en 模型(仅可识别英语发音)

    1. 创建文件夹:在 sp.exe(sp.py) 同目录下的 models 文件夹内创建models--Systran--faster-whisper-tiny.en 文件夹
    2. 打开模型下载地址: https://huggingface.co/Systran/faster-whisper-tiny.en/tree/main
    3. 将该页面的所有 .json/.bin/.txt 文件下载后复制到上面创建文件夹内即可,若已存在可直接覆盖。
  • 下载 base 模型

    1. 创建文件夹:在 sp.exe(sp.py) 同目录下的 models 文件夹内创建models--Systran--faster-whisper-base 文件夹
    2. 打开模型下载地址: https://huggingface.co/Systran/faster-whisper-base/tree/main
    3. 将该页面的所有 .json/.bin/.txt 文件下载后复制到上面创建文件夹内即可,若已存在可直接覆盖。
  • 下载 base.en 模型(仅可识别英语发音)

    1. 创建文件夹:在 sp.exe(sp.py) 同目录下的 models 文件夹内创建models--Systran--faster-whisper-base.en 文件夹
    2. 打开模型下载地址: https://huggingface.co/Systran/faster-whisper-base.en/tree/main
    3. 将该页面的所有 .json/.bin/.txt 文件下载后复制到上面创建文件夹内即可,若已存在可直接覆盖。
  • 下载 small 模型

    1. 创建文件夹:在 sp.exe(sp.py) 同目录下的 models 文件夹内创建models--Systran--faster-whisper-small 文件夹
    2. 打开模型下载地址: https://huggingface.co/Systran/faster-whisper-small/tree/main
    3. 将该页面的所有 .json/.bin/.txt 文件下载后复制到上面创建文件夹内即可,若已存在可直接覆盖。
  • 下载 small.en 模型(仅可识别英语发音)

    1. 创建文件夹:在 sp.exe(sp.py) 同目录下的 models 文件夹内创建models--Systran--faster-whisper-small.en 文件夹
    2. 打开模型下载地址: https://huggingface.co/Systran/faster-whisper-small.en/tree/main
    3. 将该页面的所有 .json/.bin/.txt 文件下载后复制到上面创建文件夹内即可,若已存在可直接覆盖。
  • 下载 medium 模型

    1. 创建文件夹:在 sp.exe(sp.py) 同目录下的 models 文件夹内创建models--Systran--faster-whisper-medium 文件夹
    2. 打开模型下载地址: https://huggingface.co/Systran/faster-whisper-medium/tree/main
    3. 将该页面的所有 .json/.bin/.txt 文件下载后复制到上面创建文件夹内即可,若已存在可直接覆盖。
  • 下载 medium.en 模型(仅可识别英语发音)

    1. 创建文件夹:在 sp.exe(sp.py) 同目录下的 models 文件夹内创建models--Systran--faster-whisper-medium.en 文件夹
    2. 打开模型下载地址: https://huggingface.co/Systran/faster-whisper-medium.en/tree/main
    3. 将该页面的所有 .json/.bin/.txt 文件下载后复制到上面创建文件夹内即可,若已存在可直接覆盖。
  • 下载 large-v3-turbo 模型

    1. 创建文件夹:在 sp.exe(sp.py) 同目录下的 models 文件夹内创建models--mobiuslabsgmbh--faster-whisper-large-v3-turbo 文件夹
    2. 打开模型下载地址: https://huggingface.co/mobiuslabsgmbh/faster-whisper-large-v3-turbo/tree/main
    3. 将该页面的所有 .json/.bin/.txt 文件下载后复制到上面创建文件夹内即可,若已存在可直接覆盖。
  • 下载 large-v1 模型

    1. 创建文件夹:在 sp.exe(sp.py) 同目录下的 models 文件夹内创建models--Systran--faster-whisper-large-v1 文件夹
    2. 打开模型下载地址: https://huggingface.co/Systran/faster-whisper-large-v1/tree/main
    3. 将该页面的所有 .json/.bin/.txt 文件下载后复制到上面创建文件夹内即可,若已存在可直接覆盖。
  • 下载 large-v2 模型

    1. 创建文件夹:在 sp.exe(sp.py) 同目录下的 models 文件夹内创建models--Systran--faster-whisper-large-v2 文件夹
    2. 打开模型下载地址: https://huggingface.co/Systran/faster-whisper-large-v2/tree/main
    3. 将该页面的所有 .json/.bin/.txt 文件下载后复制到上面创建文件夹内即可,若已存在可直接覆盖。
  • 下载 large-v3 模型

    1. 创建文件夹:在 sp.exe(sp.py) 同目录下的 models 文件夹内创建models--Systran--faster-whisper-large-v3 文件夹
    2. 打开模型下载地址: https://huggingface.co/Systran/faster-whisper-large-v3/tree/main
    3. 将该页面的所有 .json/.bin/.txt 文件下载后复制到上面创建文件夹内即可,若已存在可直接覆盖。

以下蒸馏模型,仅可用于识别转录英语发音的音视频

  • 下载 distil-large-v3 模型

    1. 创建文件夹:在 sp.exe(sp.py) 同目录下的 models 文件夹内创建models--Systran--faster-distil-whisper-large-v3 文件夹
    2. 打开模型下载地址: https://huggingface.co/Systran/faster-distil-whisper-large-v3/tree/main
    3. 将该页面的所有 .json/.bin/.txt 文件下载后复制到上面创建文件夹内即可,若已存在可直接覆盖。
  • 下载 distil-large-v3.5 模型

    1. 创建文件夹:在 sp.exe(sp.py) 同目录下的 models 文件夹内创建models--distil-whisper--distil-large-v3.5-ct2 文件夹
    2. 打开模型下载地址: https://huggingface.co/distil-whisper/distil-large-v3.5-ct2/tree/main
    3. 将该页面的所有 .json/.bin/.txt 文件下载后复制到上面创建文件夹内即可,若已存在可直接覆盖。
  • 下载 distil-small.en 模型

    1. 创建文件夹:在 sp.exe(sp.py) 同目录下的 models 文件夹内创建models--Systran--faster-distil-whisper-small.en 文件夹
    2. 打开模型下载地址: https://huggingface.co/Systran/faster-distil-whisper-small.en/tree/main
    3. 将该页面的所有 .json/.bin/.txt 文件下载后复制到上面创建文件夹内即可,若已存在可直接覆盖。
  • 下载 distil-medium.en 模型

    1. 创建文件夹:在 sp.exe(sp.py) 同目录下的 models 文件夹内创建models--Systran--faster-distil-whisper-medium.en 文件夹
    2. 打开模型下载地址: https://huggingface.co/Systran/faster-distil-whisper-medium.en/tree/main
    3. 将该页面的所有 .json/.bin/.txt 文件下载后复制到上面创建文件夹内即可,若已存在可直接覆盖。
  • 下载 distil-large-v2 模型

    1. 创建文件夹:在 sp.exe(sp.py) 同目录下的 models 文件夹内创建models--Systran--faster-distil-whisper-large-v2 文件夹
    2. 打开模型下载地址: https://huggingface.co/Systran/faster-distil-whisper-large-v2/tree/main
    3. 将该页面的所有 .json/.bin/.txt 文件下载后复制到上面创建文件夹内即可,若已存在可直接覆盖。