v3.68 起,该设置界面可同时用于 F5-TTS/Spark-TTS/index-TTS/Dia-TTS/VoxCPM/Confucius-TTS, 只需要填写对应TTS服务启动后的 WebUI 地址,默认通常是http://127.0.0.1:7860, 然后在主界面配音渠道下拉列表中选择对应服务即可。
F5-TTS
上海交大开源的TTS服务,默认支持 中文和英文,其他语言添加方法拉到底部查看
使用整合包或源码部署后,启动 WebUI,默认地址是http://127.0.0.1:7860
- Windows整合包下载地址(百度网盘): https://pan.baidu.com/s/1A6jBECIQ41OZaa8yTDCgjA?pwd=1234
- Windows整合包 hugginface.co: https://huggingface.co/mortimerme/repocollect/resolve/main/f5-tts0528.7z?download=true
源码部署方法请参照官方项目说明文档部署 https://github.com/SWivid/F5-TTS
index-tts
B站开源的TTS服务,支持中文和英文
使用整合包或源码部署后,启动 WebUI, 默认地址是http://127.0.0.1:7860
Windows整合包百度网盘下载地址 https://pan.baidu.com/s/1dmLdhJgBC7HlfY-hITMVeg?pwd=1234
Windows整合包 huggingface.co下载地址 https://huggingface.co/mortimerme/repocollect/resolve/main/indextts2-0529.7z?download=true
源码部署方法请参照官方项目说明文档部署 https://github.com/index-tts/index-tts
VoxCPM-TTS
面壁智能开源的TTS服务,支持30多种语言
阿拉伯语、缅甸语、中文、丹麦语、荷兰语、英语、芬兰语、法语、德语、希腊语、希伯来语、印地语、印尼语、意大利语、日语、高棉语、韩语、老挝语、马来语、挪威语、波兰语、葡萄牙语、俄语、西班牙语、斯瓦希里语、瑞典语、他加禄语、泰语、土耳其语、越南语
中文: 普通话,四川话, 粤语, 吴语, 东北话, 河南话, 陕西话, 山东话, 天津话, 闽南话
使用官方源码部署后,启动 WebUI, 默认地址是http://127.0.0.1:7860
请源码部署,方法参照官方项目说明文档部署 https://github.com/OpenBMB/VoxCPM
Spark-tts
支持中文和英文
使用整合包或源码部署后,启动 WebUI, 默认地址是http://127.0.0.1:7860
请源码部署,方法参照官方项目说明文档部署 https://github.com/SparkAudio/Spark-TTS
Dia-tts
仅支持英文
使用整合包或源码部署后,启动 WebUI, 默认地址是http://127.0.0.1:7860
请源码部署,方法参照官方项目说明文档部署 https://github.com/nari-labs/dia.git
Confucius-TTS网页开源的TTS服务,支持16种语言
默认地址http://127.0.0.1:7860
支持 14 种语言:中文、英文、日语、韩语、德语、法语、西班牙语、印尼语、意大利语、泰语、葡萄牙语、俄语、马来语、越南语
源码部署注意:
官方源码不含有WebUI和API,无法直接对接本软件,源码部署后,需要下载 webui.py()
然后放在官方源码目录下启动(
python webui.py),启动前需安装
gradio模块,安装命令pip install gradio整合包可直接双击
启动webui.bat使用,无法额外操作
- Windows整合包下载地址(百度网盘): https://pan.baidu.com/s/1rtrlJ5pE7wAm4bbpl72x3A?pwd=1234
- Windows整合包 hugginface.co: https://huggingface.co/mortimerme/repocollect/resolve/main/confucius4-2026-0624.7z?download=true
源码部署方法参照官方项目说明文档部署 https://github.com/netease-youdao/Confucius4-TTS
配置参考音频
参考音频统一在 菜单--TTS设置--设置参考音频中处理
打开设置后,在“参考音频”一栏中,填写以下内容:
想要使用的音频文件名#该音频文件中对应的文字
注意: 请将参考音频文件放置在 pyVideotrans 项目根目录下的 f5-tts 文件夹内。如果该文件夹不存在,请手动创建。例如,您可以将参考音频文件命名为 nverguo.wav。

填写示例如下:

F5-TTS 增加其他语言
如果您需要使用其他语言的模型,也需要修改 F5-TTS 项目目录/src/f5_tts/infer/infer_gradio.py 文件。
找到大约第 59 行的代码:
DEFAULT_TTS_MODEL_CFG = [
"hf://SWivid/F5-TTS/F5TTS_v1_Base/model_1250000.safetensors",
"hf://SWivid/F5-TTS/F5TTS_v1_Base/vocab.txt",
json.dumps(dict(dim=1024, depth=22, heads=16, ff_mult=2, text_dim=512, conv_layers=4)),
]代码位置示意图:

默认情况下,这里配置的是官方的中文和英文模型。 如果您需要使用其他语言的模型,请按照以下说明进行修改。 修改完成后,需要重新启动 F5-TTS,并确保已配置好科学上网环境,以便程序在线下载新的语言模型。 下载成功后,先通过 WebUI 克隆一个音色进行测试,然后再通过 pyVideoTrans 使用。
重要提示:在使用前,请确保 pyVideoTrans 中的配音文字语言与 F5-TTS 中选择的模型语言一致。
以下是各语言模型的配置信息:
法语:
pythonDEFAULT_TTS_MODEL_CFG = [ "hf://RASPIAUDIO/F5-French-MixedSpeakers-reduced/model_last_reduced.pt", "hf://RASPIAUDIO/F5-French-MixedSpeakers-reduced/vocab.txt", json.dumps({"dim": 1024, "depth": 22, "heads": 16, "ff_mult": 2, "text_dim": 512, "text_mask_padding": False, "conv_layers": 4, "pe_attn_head": 1}), ]印地语:
pythonDEFAULT_TTS_MODEL_CFG = [ "hf://SPRINGLab/F5-Hindi-24KHz/model_2500000.safetensors", "hf://SPRINGLab/F5-Hindi-24KHz/vocab.txt", json.dumps({"dim": 768, "depth": 18, "heads": 12, "ff_mult": 2, "text_dim": 512, "text_mask_padding": False, "conv_layers": 4, "pe_attn_head": 1}) ]意大利语:
pythonDEFAULT_TTS_MODEL_CFG = [ "hf://alien79/F5-TTS-italian/model_159600.safetensors", "hf://alien79/F5-TTS-italian/vocab.txt", json.dumps({"dim": 1024, "depth": 22, "heads": 16, "ff_mult": 2, "text_dim": 512, "text_mask_padding": False, "conv_layers": 4, "pe_attn_head": 1}) ]日语:
pythonDEFAULT_TTS_MODEL_CFG = [ "hf://Jmica/F5TTS/JA_25498980/model_25498980.pt", "hf://Jmica/F5TTS/JA_25498980/vocab_updated.txt", json.dumps({"dim": 1024, "depth": 22, "heads": 16, "ff_mult": 2, "text_dim": 512, "text_mask_padding": False, "conv_layers": 4, "pe_attn_head": 1}) ]俄语:
pythonDEFAULT_TTS_MODEL_CFG = [ "hf://hotstone228/F5-TTS-Russian/model_last.safetensors", "hf://hotstone228/F5-TTS-Russian/vocab.txt", json.dumps({"dim": 1024, "depth": 22, "heads": 16, "ff_mult": 2, "text_dim": 512, "text_mask_padding": False, "conv_layers": 4, "pe_attn_head": 1}) ]西班牙语:
pythonDEFAULT_TTS_MODEL_CFG = [ "hf://jpgallegoar/F5-Spanish/model_last.safetensors", "hf://jpgallegoar/F5-Spanish/vocab.txt", json.dumps({"dim": 1024, "depth": 22, "heads": 16, "ff_mult": 2, "text_dim": 512, "conv_layers": 4}) ]芬兰语:
pythonDEFAULT_TTS_MODEL_CFG = [ "hf://AsmoKoskinen/F5-TTS_Finnish_Model/model_common_voice_fi_vox_populi_fi_20241206.safetensors", "hf://AsmoKoskinen/F5-TTS_Finnish_Model/vocab.txt", json.dumps({"dim": 1024, "depth": 22, "heads": 16, "ff_mult": 2, "text_dim": 512, "text_mask_padding": False, "conv_layers": 4, "pe_attn_head": 1})]
可关注官方更新,其他语言可使用类似方式增加,地址:https://github.com/SWivid/F5-TTS/blob/main/src/f5_tts/infer/SHARED.md
常见错误和注意事项
API 使用过程中,您可以关闭浏览器中的 WebUI 界面,但不能关闭启动 F5-TTS 的终端窗口。

能否动态切换 F5-TTS 中的模型? 不可以。您需要按照上述方式手动修改代码,然后重启 WebUI。
频频出现这类错误
raise ConnectTimeout(e, request=request)
requests.exceptions.ConnectTimeout: (MaxRetryError("HTTPSConnectionPool(host='huggingface.co', port=443): Max retries exceeded with url: /SWivid/F5-TTS/resolve/main/F5TTS_v1_Base/vocab.txt (Caused by ConnectTimeoutError(<urllib3.connection.HTTPSConnection object at 0x000002174796DF60>, 'Connection to huggingface.co timed out. (connect timeout=10)'))"), '(Request ID: 0458b571-90ab-4edd-ae59-b93bd603cdd0)')梯子问题,请科学上网,并使用流畅的梯子,参照上方配置科学上网环境
