Skip to content

原音色克隆与多角色配音

一:基于视频的原音色克隆

翻译视频和音频功能中,可在配音渠道中选择 OmniVoice(本地)/Qwen-TTS(本地)/GPT-SoVITS/CosyVoice/F5-TTS/Chatterbox/clone-voice等,选中clone角色,将会以视频中原声音作为参考音频进行配音,得到原音色的配音。

主界面中角色选择 clone,就可以进行克隆音色配音了

  • OmniVoice-TTS: 支持所有内置语言
  • F5-TTS/Index-TTS: 支持中文、英文配音
  • Qwen-TTS(本地): 支持中英日韩等多种配音
  • CosyVoice: 支持 中文、英文、日文、韩文、德文、西班牙文、法文、意大利文、俄文配音
  • GPT-SoVITS: 支持中文、日语、英语、韩语、粤语配音
  • Chatterbox: 支持阿拉伯语、德语、英语、西班牙语、法语、希伯来语、印地语、意大利语、日语、韩语、马来语、波兰语、葡萄牙语、俄语、瑞典语、土耳其语和中文配音

image.png

最佳克隆配置

  1. 如果使用CosyVoice/GPT-SoVITS/F5-TTS等配音去掉,请打开 菜单--工具--高级设置--语音识别参数区域:建议将最短语音持续毫秒设为 3000 ,将最长语音持续秒数设为 10 ,因为 语音克隆时会自动将字幕时长对应的原始语音片段作为参考音频,而多数配音渠道均要求该参考音频时长在 3-10s 之间,否则配音很可能失败。 同时应该选中 Whisper预分割音频以及合并过短字幕到相邻,以确保字幕时长能够落在 3-10s 之间
  2. 如果你的字幕很多都小于3s,建议使用 OmniVoice-TTS 配音渠道,在短参考音频下能避免出错
  3. 翻译渠道 使用AI引擎,例如 DeepSeek或OpenAI ChatGPT等, 并且选中发送完整字幕
  4. 语音识别渠道 对于中文建议豆包语音大模型极速版/Qwen-ASR/阿里百炼等,英文 Faster-whisper+large-v3模型,并且选中默认断句
  5. 如果需要重新嵌入原始视频的背景音,点击设置更多参数-选中分离人声背景声,如果不需要,则选中降噪

二:基于字幕的多角色配音

从 v3.74 后新增了"字幕多角色配音"功能,点击左侧工具栏的字幕多角色配音按钮,在弹出的窗口中,导入需要配音的 srt 字幕,然后为每条字幕分别设置一个角色,即可实现多角色发音。

tts-duo