配音渠道
配音(TTS)是视频翻译的第三步,将翻译后的字幕文本转换为语音音频。pyVideoTrans 支持 30+ 种配音渠道。
开箱即用(免费)
无需复杂配置,非常适合新手。
| 渠道 | 说明 | 推荐度 |
|---|---|---|
| Edge-TTS(免费) | 微软免费接口,声音自然,支持所有语种 | ⭐⭐⭐ 默认推荐 |
| gTTS(免费)** | Google TTS,基础质量 | ⭐⭐ |
⚠️ Edge-TTS 短时间内大量使用可能触发限流,建议在高级选项中将并发数设为 1,暂停秒数设为 5-10。
本地内置(免费)
首次使用时自动下载模型,完全离线运行。
| 渠道 | 说明 | GPU 加速 | 推荐度 |
|---|---|---|---|
| Qwen3-TTS(本地内置) | 阿里开源,支持中英日韩等 | ✅ | ⭐⭐⭐ 推荐 |
| MOSS-TTS-Nano(本地内置) | 支持20种语言 | ❌ | ⭐⭐ |
| Piper(本地内置) | 轻量级,支持20种语言 | ❌ | ⭐⭐ |
| VITS(本地内置) | 中英配音 | ❌ | ⭐⭐ |
| Supertonic3(本地内置) | 英韩西法配音 | ❌ | ⭐⭐ |
| ChatterBox(本地内置) | 22种语言,效果好 | ✅ | ⭐⭐⭐ 推荐 |
专业云服务(需 API Key)
| 渠道 | 说明 | 推荐度 |
|---|---|---|
| Azure TTS | 微软专业级语音服务 | ⭐⭐⭐ |
| OpenAI TTS | 声音技术领先 | ⭐⭐⭐ |
| 字节语音合成2.0 | 中文发音地道 | ⭐⭐⭐ |
| 阿里 Qwen-TTS | 阿里云语音合成 | ⭐⭐⭐ |
| Gemini TTS | 谷歌 TTS | ⭐⭐ |
| Elevenlabs.io | AI 音频技术公司 | ⭐⭐⭐ |
| 302.AI | 聚合平台 | ⭐⭐ |
| Minimaxi | 需充值使用 | ⭐⭐ |
| 小米 TTS | 小米 AI 开放平台 | ⭐⭐ |
| X.AI TTS | x.ai 平台 | ⭐⭐ |
本地部署(高阶)
| 渠道 | 说明 | 支持克隆 | 推荐度 |
|---|---|---|---|
| OmniVoice-TTS | 支持几乎所有语言 | ✅ | ⭐⭐⭐ 推荐 |
| GPT-SoVITS | 只需少量音频即可克隆 | ✅ | ⭐⭐⭐ 推荐 |
| F5-TTS | 中英克隆 | ✅ | ⭐⭐⭐ 推荐 |
| Index-TTS | 中英克隆 | ✅ | ⭐⭐⭐ 推荐 |
| Confucius-TTS | 14种语言 | ✅ | ⭐⭐⭐ |
| VoxCPM-TTS | 10+种语言 | ✅ | ⭐⭐⭐ |
| CosyVoice | 中英日韩等10+种 | ✅ | ⭐⭐ |
| ChatTTS | 支持中文和英文 | — | ⭐⭐ |
| Fish-TTS | 支持内置所有语言 | — | ⭐ |
| Kokoro-TTS | 中英韩意葡德法印地 | — | ⭐ |
| Spark-TTS | 英语 | ✅ | ⭐⭐ |
| Dia-TTS | 英语 | ✅ | ⭐⭐ |
| clone-voice | 已不维护 | ✅ | ⭐ |
使用参考音频
声音克隆渠道需要提供参考音频。将 WAV 文件放入 f5-tts/ 目录,格式为 文件名.wav#音频中的说话文本。
详细说明请查看 原声克隆与多角色配音
