原声克隆与多角色配音
本文介绍如何使用原视频说话人的音色进行配音(声音克隆),以及如何为不同角色分配不同的配音。
一、原声克隆
什么是原声克隆?
原声克隆是指:使用原始视频中说话人的音色生成目标语言的配音。例如将一段中文视频翻译为英文,生成的新英文配音听起来依然是原说话人的声音。
基本原理
- 提取要配音的字幕数据
- 根据字幕的起始与结束时间,从原始视频中截取对应的音频片段,作为参考音频
- 将参考音频与翻译后的目标字幕文本一并发送给支持声音克隆的 TTS 引擎
支持音色克隆的渠道
| 渠道 | 本地/在线 | 支持语言 | 推荐度 |
|---|---|---|---|
| OmniVoice-TTS | 本地API | 所有语言 | ⭐⭐⭐ 推荐 |
| Qwen-TTS | 本地内置 | 中英日韩等10+种 | ⭐⭐⭐ 推荐 |
| GPT-SoVITS | 本地API | 中英日韩 | ⭐⭐⭐ 推荐 |
| Confucius-TTS | 本地API | 14种语言 | ⭐⭐⭐ |
| F5-TTS | 本地API | 中英 | ⭐⭐⭐ 推荐 |
| Index-TTS | 本地API | 中英 | ⭐⭐⭐ 推荐 |
| VoxCPM-TTS | 本地API | 10+种语言 | ⭐⭐⭐ 推荐 |
| ChatterBox | 本地内置 | 10+种语言 | ⭐⭐ 推荐 |
| CosyVoice | 本地API | 中英日韩等10+种 | ⭐⭐ |
| Spark-TTS | 本地API | 英语 | ⭐⭐ |
| Dia-TTS | 本地API | 英语 | ⭐⭐ |
最佳克隆配置
为获得最佳克隆效果,请在主界面和高级选项中进行如下配置:
- 禁止使用「LLM重新断句」 — 重新划分时间轴会导致截取的参考音频与说话时间错位
- 强制控制字幕时长:
- 进入
菜单 -> 工具 -> 高级选项 -> 语音识别参数 - 最长语音持续秒数:6-10
- 最短语音持续毫秒:3000-4000
- 勾选「合并过短字幕到邻近」
- 进入
- 翻译渠道:使用 DeepSeek 或 OpenAI 等大模型,勾选「发送完整字幕」
- 人声背景分离:点击主界面「设置更多参数」,勾选「分离人声背景声」,大幅提升克隆音质
- 语音识别:
- 中文:
豆包语音大模型极速版/Qwen-ASR(本地) - 英文:
faster-whisper(本地)+large-v3模型
- 中文:
使用本地参考音频
有时您可能不希望克隆原始视频中的音色,而是使用某个本地音频里的音色。
步骤:
准备一段 5-10 秒的 WAV 格式音频,确保:
- 清晰准确的单一人声
- 没有背景噪声
- 开头结尾没有多余静音
将音频复制到软件目录下的
f5-tts文件夹打开
菜单 -> TTS 设置 -> 设置参考音频,填写:myaudio1.wav#你说四大皆空,却为何紧闭双眼(格式:
文件名.wav#音频中的说话文本)保存后,在主界面配音角色下拉框中选择
myaudio1.wav
注意:GPT-SoVITS 的参考音频需要放在 GPT-SoVITS 软件的根目录下,而不是
f5-tts文件夹内。
二、多角色配音
功能说明
多角色配音允许您为视频中的不同说话人分配不同的 AI 配音角色。例如:
- 男性角色使用男声配音
- 女性角色使用女声配音
- 不同角色使用不同音色
使用方法
- 在主界面选择配音渠道
- 语音识别时选中「识别说话人」
- 翻译完成后,在弹出的说话人角色分配窗口中,为每个说话人选择不同的配音角色
- 点击「确定」继续处理
