语音克隆与多角色配音

本文介绍如何使用原视频说话人的音色进行配音（语音克隆），以及如何为不同角色分配不同的配音。

一、语音克隆

什么是语音克隆？

语音克隆是指：使用原始视频中说话人的音色生成目标语言的配音。例如将一段中文视频翻译为英文，生成的新英文配音听起来依然是原说话人的声音。

基本原理

提取要配音的字幕数据
根据字幕的起始与结束时间，从原始视频中截取对应的音频片段，作为参考音频
将参考音频与翻译后的目标字幕文本一并发送给支持声音克隆的 TTS 引擎

支持音色克隆的渠道

渠道	本地/在线	支持语言	推荐度
OmniVoice-TTS	本地内置	所有语言	⭐⭐⭐
Qwen-TTS	本地内置	中英日韩等10+种	⭐⭐⭐
F5-TTS	本地内置	中英	⭐⭐⭐
Confucius-TTS	本地内置	14种语言	⭐⭐⭐
ZipVoice-TTS	本地内置	中英	⭐⭐
ChatterBox	本地内置	10+种语言	⭐⭐
GPT-SoVITS	本地API	中英日韩	⭐⭐⭐
Index-TTS	本地API	中英	⭐⭐⭐
VoxCPM-TTS	本地API	10+种语言	⭐⭐⭐
CosyVoice	本地API	中英日韩等10+种	⭐⭐
Spark-TTS	本地API	英语	⭐⭐

本地API/本地内置是什么意思

本地API: 很多开源模型可自行在本地部署，部署并启动后，将API地址或WebUI地址填写在软件设置界面，软件即可通过该地址调用你部署的模型服务。例如 GPT-SoVITS / CosyVoice 等
本地内置: 有些模型可以相对方便的集成到软件内，而无需单独另行部署，开箱可用，但需要注意，为避免软件体积无限膨胀，仅调用代码内置，模型本身并未内置，第一次使用时需在线下载模型。

查看所有模型下载地址及手动下载方法

最佳克隆配置

为获得最佳克隆效果，请在主界面和高级选项中进行如下配置：

禁止使用「LLM重新断句」: 因该功能会重新划分时间轴，进而导致截取的参考音频与说话时间错位
强制控制字幕时长：通常TTS配音引擎要求参考音频在 3-10s 时间内，否则极可能出错
- 进入 菜单 -> 工具 -> 高级选项 -> 语音识别参数
- 最长语音持续秒数：6-10
- 最短语音持续毫秒：3000-4000
- 勾选「合并过短字幕到邻近」
翻译渠道：使用 DeepSeek 或 OpenAI 等大模型，勾选「发送完整字幕」
人声背景分离：点击主界面「设置更多参数」，勾选「分离人声背景声」，大幅提升克隆音质

使用本地参考音频

有时您可能不希望克隆原始视频中的音色，而是使用某个本地音频里的音色。

步骤：

准备一段 3-10 秒的 WAV 格式音频，确保：
- 清晰准确的单一人声
- 没有背景噪声
- 开头结尾没有多余静音
将音频复制到软件目录下的 f5-tts 文件夹
打开 菜单 -> TTS 设置 -> 设置参考音频，填写：
文件名.wav#音频中的说话文本，例如 myaudio1.wav#你说四大皆空，却为何紧闭双眼
保存后，在主界面配音角色下拉框中选择 myaudio1.wav

注意：GPT-SoVITS 的参考音频需要放在 GPT-SoVITS 软件的根目录下，而不是 f5-tts 文件夹内。

二、多角色配音

功能说明

多角色配音允许您为视频中的不同说话人分配不同的 AI 配音角色。例如：

男性角色使用男声配音
女性角色使用女声配音
不同角色使用不同音色

使用方法一

每次只选择一个视频进行翻译，不要批量
在主界面选择设置更多参数
选中「识别说话人」，并设置说话人数量
字幕翻译完成后，在弹出的说话人角色分配窗口中，为每个说话人选择不同的配音角色
点击「确定」继续处理

使用方法二

主界面左侧--字幕多角色配音：导入字幕，手动为每行字幕指定一个角色，也支持导入带说话人标识的字幕,必须保证每行字幕文本开头符合[spk1]或[speaker1]这类形式

语音克隆与多角色配音 ​

一、语音克隆 ​

什么是语音克隆？ ​

基本原理 ​

支持音色克隆的渠道 ​

最佳克隆配置 ​

使用本地参考音频 ​

二、多角色配音 ​

功能说明 ​

使用方法一 ​

使用方法二 ​