配音渠道会根据字幕文件,一行一行地进行智能配音。你还可以自由调整语速、音量和音调,让声音效果更贴合你的需求。
在这里,你可以看到所有支持的配音选项
温馨提示: 某些高级配音服务,如 OpenAI、微软 Azure、字节火山语音等,需要你提供个人的 API 地址或密钥(SK)才能使用。别担心,设置非常简单!
只需点击软件顶部的 “菜单” -> “TTS 设置”,找到相应的选项并填入你的信息即可。
点击渠道名字,查看该渠道详细使用方法。
一、 开箱即用型 (免费 & 便捷)
这类服务无需复杂配置,非常适合新手或快速制作。
Edge-TTS (免费)
- 简介: 这是由微软提供的免费配音服务,声音自然,效果出众。
- 支持所有常见语言
- 注意: 如果在短时间内大量使用,可能会因为微软的访问频率限制,导致配音失败或生成音频出现静音片段。
- 阿里开源的本地TTS配音模型,支持内置音色和克隆音色,第一次使用自动下载模型
- 支持的语言 中文、英文、日文、韩文、德文、法文、俄文、葡萄牙文、西班牙文和意大利文
- 本地内置TTS,支持中文配音和英文配音,第一次使用自动下载模型
- 本地内置TTS,支持中英等20种语言配音,第一次使用某个音色时会自动下载该模型
- 本地内置TTS,支持多种语言配音,第一次使用自动下载模型
- 支持的语言 英文、韩语、西班牙语、法语配音
- 本地内置TTS,支持多种语言配音,第一次使用自动下载模型
- 支持的语言 中文、英文、德语、西班牙语、法语、日语、意大利语、匈牙利语、韩语、俄语、波斯语、阿拉伯语、波兰语、葡萄牙语、捷克语、丹麦语、瑞典语、希腊语、土耳其语
- 本地内置TTS,支持多种语言配音,第一次使用自动下载模型
- 支持的语言 阿拉伯语、丹麦语、德语、希腊语、英语、西班牙语、芬兰语、法语、希伯来语、印地语、意大利语、日语、韩语、马来语、荷兰语、挪威语、波兰语、葡萄牙语、俄语、瑞典语、斯瓦希里语、土耳其语和中文
二、 专业云服务型 (需申请 API Key)
这类服务通常由大公司提供,效果稳定,音色选择丰富,但部分需要付费。
- 简介: 微软旗下的专业级语音服务,提供多种高度逼真的声音,效果非常出色。
- 要求: 需要前往微软 Azure 官网开通语音服务。
- 简介: 由开发 ChatGPT 的 OpenAI 公司提供,声音技术领先,效果非常自然。
- 要求: 需要拥有 OpenAI 账户并获取 SK 密钥。
- 简介: 由字节跳动(抖音母公司)提供,中文发音地道,音色丰富。
- 要求: 需要在火山引擎官网开通服务并创建应用。
- 简介: 阿里巴巴提供的语音合成服务,依托其强大的大模型技术。
- 要求: 需要开通阿里云上的“百炼”服务并申请 API Key。
- 简介: 谷歌提供的 TTS 服务。
- 要求: 需要能够访问谷歌服务,并申请 Gemini API Key。免费账号的请求限制非常严格,可能仅能成功配音几条字幕。
- 简介: 一家专注于 AI 音频技术的热门公司,提供丰富且高表现力的声音。
- 要求: 需要在其官网 Elevenlabs.io 申请 API Key。免费账号的限制较多,可能不足以完成一个完整的项目。
- 要求: 需要访问 302.ai 官网申请 App Key。
- 要求: 需要前往 minimaxi.com 申请 API Key,并进行充值后使用。
- 要求: 需要前往 小米AI开放平台 申请 API Key,并进行充值后使用。
- 要求: 需要前往 x.ai平台 申请 API Key,并进行充值后使用。
三、 本地部署型 (高自由度 & 适合高阶玩家)
如果你追求更高的自由度、想要克隆自己的声音,或者不希望依赖第三方云服务,那么本地部署是你的最佳选择。这通常需要一定的技术能力和较好的电脑配置。
- 简介: 支持克隆几乎所有本软件支持的语言。
- 要求: 需要在自己的电脑上部署服务并启动
- URL地址: 启动后将 webui 地址填写到设置窗口中,默认
http://127.0.0.1:7860 - 参考音频: 3-10s的wav音频,存放到本软件的
f5-tts目录下
- 简介: 一个非常热门的开源项目,只需少量音频样本即可克隆任何人的声音,效果惊艳。
- 要求: 需要在自己的电脑上部署服务并启动。
- API地址: 启动
api.py或api_v2.py后将 API 地址填写到设置窗口中,默认http://127.0.0.1:9880 - 参考音频: 3-10s的wav音频,存放到GPT-SoVITS软件的根目录下
- 简介: 另一个优秀的本地部署方案,提供高质量的语音合成。
- 要求: 需要在本地环境中进行部署并启动。
- URL地址: 启动后将 webui 地址填写到设置窗口中,默认
http://127.0.0.1:8000 - 参考音频: 3-10s的wav音频,存放到本软件的
f5-tts目录下
- 简介: 专门为对话场景设计的 TTS 模型,能生成非常自然、带情感的对话语音。
- 要求: 需要在本地部署其
ChatTTS-UI服务。 - URL地址: 默认
http://127.0.0.1:9966
- 要求: 需要在本地环境中进行部署并启动。
- API地址: 默认
http://127.0.0.1:8080/v1/tts
- 要求: 需要在本地环境中进行部署并启动。
- API地址: 默认
http://127.0.0.1:5066
F5-TTS / Spark / IndexTTS / DiaTTS / VoxCPM
- 简介: 这五个渠道共用一个设置后台。
- 要求: 均需要本地部署,并在 菜单 -> TTS 设置 -> F5TTS 中配置各自的 API 地址。
- URL地址: 启动后将 webui 地址填写到设置窗口中,默认
http://127.0.0.1:7860 - 参考音频: 3-10s的wav音频,存放到本软件的
f5-tts目录下
四、 终极定制型
- 自定义 TTS-API
- 简介: 如果以上所有渠道都无法满足你,或者你自己开发了一套语音服务,这个选项为你提供了无限可能。
- 要求: 具备一定的编程能力,可以自行编写或部署一个符合我们数据格式要求的 API 接口。
使用参考音频
这些渠道都需要参考音频
- OmniVoice(本地API):支持所有语言(推荐)
- Qwen-TTS(本地内置):支持中英日韩等10多种常见语言(推荐)
- GPT-SoVITS(本地API):支持中英日韩(推荐)
- F5-TTS(本地API):支持中英(推荐)
- VoxCPM-TTS(本地API):支持10多种语言(推荐)
- Chatterbox(本地内置):支持10多种语言(推荐)
- Index-TTS(本地API):支持中英(推荐)
- CosyVoice(本地API):支持中英日韩等10多种常见语言
- Spark-TTS(本地API):支持英语
- Dia-TTS(本地API):支持英语
- clone-voice(本地API):支持10多种语言(已不维护,不推荐使用)
有时你可能不希望克隆原始视频中的音色,而是使用某个你本地有的音频里的音色,或者干脆使用你自己的声音。
- 首先录制或其他方法得到一段
5-10s的wav格式音频,确保该音频内是清晰准确的单一人声,没有背景噪声,开头结尾没有多余静音。 例如可以使用剪映等从一些长音频或视频中分离出10s的说话声作为参考音频 - 确保该音频是
wav格式,命名为简短名称,例如myaudio1.wav,然后将它复制到本软件/f5-tts文件夹内。 接着打开软件菜单-TTS设置-设置参考音频,在文本框内新起一行,填写myaudio1.wav#该音频里的说话文本内容,保存即可。 例如
myaudio1.wav#你说四大皆空,却为何,紧闭双眼,若你睁开眼睛看看我,我不相信你,两眼空空。1
注意: GPT-SoVITS 配音的参考音频需要放在 GPT-SoVITS 软件的根目录下,而不是 f5-tts 文件夹内
- 保存后回到主界面配音角色下拉框中选择这个
myaudio1.wav即可使用
wav格式音频后缀是
.wav,如果你无法看到,请打开任意一个文件夹,点击该文件夹导航栏的查看--文件扩展名选中它即可,Win11系统是查看--显示--文件扩展名
