Skip to content

原声克隆与多角色配音

本文介绍如何使用原视频说话人的音色进行配音(声音克隆),以及如何为不同角色分配不同的配音。


一、原声克隆

什么是原声克隆?

原声克隆是指:使用原始视频中说话人的音色生成目标语言的配音。例如将一段中文视频翻译为英文,生成的新英文配音听起来依然是原说话人的声音。

基本原理

  1. 提取要配音的字幕数据
  2. 根据字幕的起始与结束时间,从原始视频中截取对应的音频片段,作为参考音频
  3. 将参考音频与翻译后的目标字幕文本一并发送给支持声音克隆的 TTS 引擎

支持音色克隆的渠道

渠道本地/在线支持语言推荐度
OmniVoice-TTS本地API所有语言⭐⭐⭐ 推荐
Qwen-TTS本地内置中英日韩等10+种⭐⭐⭐ 推荐
GPT-SoVITS本地API中英日韩⭐⭐⭐ 推荐
Confucius-TTS本地API14种语言⭐⭐⭐
F5-TTS本地API中英⭐⭐⭐ 推荐
Index-TTS本地API中英⭐⭐⭐ 推荐
VoxCPM-TTS本地API10+种语言⭐⭐⭐ 推荐
ChatterBox本地内置10+种语言⭐⭐ 推荐
CosyVoice本地API中英日韩等10+种⭐⭐
Spark-TTS本地API英语⭐⭐
Dia-TTS本地API英语⭐⭐

最佳克隆配置

为获得最佳克隆效果,请在主界面和高级选项中进行如下配置:

  1. 禁止使用「LLM重新断句」 — 重新划分时间轴会导致截取的参考音频与说话时间错位
  2. 强制控制字幕时长
    • 进入 菜单 -> 工具 -> 高级选项 -> 语音识别参数
    • 最长语音持续秒数:6-10
    • 最短语音持续毫秒:3000-4000
    • 勾选「合并过短字幕到邻近」
  3. 翻译渠道:使用 DeepSeek 或 OpenAI 等大模型,勾选「发送完整字幕」
  4. 人声背景分离:点击主界面「设置更多参数」,勾选「分离人声背景声」,大幅提升克隆音质
  5. 语音识别
    • 中文:豆包语音大模型极速版 / Qwen-ASR(本地)
    • 英文:faster-whisper(本地) + large-v3 模型

使用本地参考音频

有时您可能不希望克隆原始视频中的音色,而是使用某个本地音频里的音色。

步骤

  1. 准备一段 5-10 秒的 WAV 格式音频,确保:

    • 清晰准确的单一人声
    • 没有背景噪声
    • 开头结尾没有多余静音
  2. 将音频复制到软件目录下的 f5-tts 文件夹

  3. 打开 菜单 -> TTS 设置 -> 设置参考音频,填写:

    myaudio1.wav#你说四大皆空,却为何紧闭双眼

    (格式:文件名.wav#音频中的说话文本

  4. 保存后,在主界面配音角色下拉框中选择 myaudio1.wav

注意:GPT-SoVITS 的参考音频需要放在 GPT-SoVITS 软件的根目录下,而不是 f5-tts 文件夹内。


二、多角色配音

功能说明

多角色配音允许您为视频中的不同说话人分配不同的 AI 配音角色。例如:

  • 男性角色使用男声配音
  • 女性角色使用女声配音
  • 不同角色使用不同音色

使用方法

  1. 在主界面选择配音渠道
  2. 语音识别时选中「识别说话人」
  3. 翻译完成后,在弹出的说话人角色分配窗口中,为每个说话人选择不同的配音角色
  4. 点击「确定」继续处理