Skip to content

v3.68 起,该设置界面可同时用于 F5-TTS/Spark-TTS/index-TTS/Dia-TTS/VoxCPM/Confucius-TTS, 只需要填写对应TTS服务启动后的 WebUI 地址,默认通常是http://127.0.0.1:7860, 然后在主界面配音渠道下拉列表中选择对应服务即可。

F5-TTS

上海交大开源的TTS服务,默认支持 中文和英文,其他语言添加方法拉到底部查看

使用整合包或源码部署后,启动 WebUI,默认地址是http://127.0.0.1:7860

源码部署方法请参照官方项目说明文档部署 https://github.com/SWivid/F5-TTS

index-tts

B站开源的TTS服务,支持中文和英文

使用整合包或源码部署后,启动 WebUI, 默认地址是http://127.0.0.1:7860

源码部署方法请参照官方项目说明文档部署 https://github.com/index-tts/index-tts

VoxCPM-TTS

面壁智能开源的TTS服务,支持30多种语言

阿拉伯语、缅甸语、中文、丹麦语、荷兰语、英语、芬兰语、法语、德语、希腊语、希伯来语、印地语、印尼语、意大利语、日语、高棉语、韩语、老挝语、马来语、挪威语、波兰语、葡萄牙语、俄语、西班牙语、斯瓦希里语、瑞典语、他加禄语、泰语、土耳其语、越南语

中文: 普通话,四川话, 粤语, 吴语, 东北话, 河南话, 陕西话, 山东话, 天津话, 闽南话

使用官方源码部署后,启动 WebUI, 默认地址是http://127.0.0.1:7860

请源码部署,方法参照官方项目说明文档部署 https://github.com/OpenBMB/VoxCPM

Spark-tts

支持中文和英文

使用整合包或源码部署后,启动 WebUI, 默认地址是http://127.0.0.1:7860

请源码部署,方法参照官方项目说明文档部署 https://github.com/SparkAudio/Spark-TTS

Dia-tts

仅支持英文

使用整合包或源码部署后,启动 WebUI, 默认地址是http://127.0.0.1:7860

请源码部署,方法参照官方项目说明文档部署 https://github.com/nari-labs/dia.git

Confucius-TTS网页开源的TTS服务,支持16种语言

默认地址http://127.0.0.1:7860

支持 14 种语言:中文、英文、日语、韩语、德语、法语、西班牙语、印尼语、意大利语、泰语、葡萄牙语、俄语、马来语、越南语

源码部署注意:

官方源码不含有WebUI和API,无法直接对接本软件,源码部署后,需要下载 webui.py()

然后放在官方源码目录下启动(python webui.py),

启动前需安装gradio模块,安装命令pip install gradio

整合包可直接双击启动webui.bat使用,无法额外操作

源码部署方法参照官方项目说明文档部署 https://github.com/netease-youdao/Confucius4-TTS

配置参考音频

参考音频统一在 菜单--TTS设置--设置参考音频中处理

打开设置后,在“参考音频”一栏中,填写以下内容:

想要使用的音频文件名#该音频文件中对应的文字

注意: 请将参考音频文件放置在 pyVideotrans 项目根目录下的 f5-tts 文件夹内。如果该文件夹不存在,请手动创建。例如,您可以将参考音频文件命名为 nverguo.wav

参考音频放到pyVideotrans软件内的f5-tts文件夹内,别搞错

填写示例如下:

参考音频和参考音频内文字


F5-TTS 增加其他语言

如果您需要使用其他语言的模型,也需要修改 F5-TTS 项目目录/src/f5_tts/infer/infer_gradio.py 文件。

找到大约第 59 行的代码:

python
DEFAULT_TTS_MODEL_CFG = [
    "hf://SWivid/F5-TTS/F5TTS_v1_Base/model_1250000.safetensors",
    "hf://SWivid/F5-TTS/F5TTS_v1_Base/vocab.txt",
    json.dumps(dict(dim=1024, depth=22, heads=16, ff_mult=2, text_dim=512, conv_layers=4)),
]

代码位置示意图:

默认情况下,这里配置的是官方的中文和英文模型。 如果您需要使用其他语言的模型,请按照以下说明进行修改。 修改完成后,需要重新启动 F5-TTS,并确保已配置好科学上网环境,以便程序在线下载新的语言模型。 下载成功后,先通过 WebUI 克隆一个音色进行测试,然后再通过 pyVideoTrans 使用。

重要提示:在使用前,请确保 pyVideoTrans 中的配音文字语言与 F5-TTS 中选择的模型语言一致。

以下是各语言模型的配置信息:

  1. 法语:

    python
    DEFAULT_TTS_MODEL_CFG = [
        "hf://RASPIAUDIO/F5-French-MixedSpeakers-reduced/model_last_reduced.pt",
        "hf://RASPIAUDIO/F5-French-MixedSpeakers-reduced/vocab.txt",
        json.dumps({"dim": 1024, "depth": 22, "heads": 16, "ff_mult": 2, "text_dim": 512, "text_mask_padding": False, "conv_layers": 4, "pe_attn_head": 1}),
    ]
  2. 印地语:

    python
    DEFAULT_TTS_MODEL_CFG = [
        "hf://SPRINGLab/F5-Hindi-24KHz/model_2500000.safetensors",
        "hf://SPRINGLab/F5-Hindi-24KHz/vocab.txt",
        json.dumps({"dim": 768, "depth": 18, "heads": 12, "ff_mult": 2, "text_dim": 512, "text_mask_padding": False, "conv_layers": 4, "pe_attn_head": 1})
    ]
  3. 意大利语:

    python
    DEFAULT_TTS_MODEL_CFG = [
        "hf://alien79/F5-TTS-italian/model_159600.safetensors",
        "hf://alien79/F5-TTS-italian/vocab.txt",
        json.dumps({"dim": 1024, "depth": 22, "heads": 16, "ff_mult": 2, "text_dim": 512, "text_mask_padding": False, "conv_layers": 4, "pe_attn_head": 1})
    ]
  4. 日语:

    python
    DEFAULT_TTS_MODEL_CFG = [
        "hf://Jmica/F5TTS/JA_25498980/model_25498980.pt",
        "hf://Jmica/F5TTS/JA_25498980/vocab_updated.txt",
        json.dumps({"dim": 1024, "depth": 22, "heads": 16, "ff_mult": 2, "text_dim": 512, "text_mask_padding": False, "conv_layers": 4, "pe_attn_head": 1})
    ]
  5. 俄语:

    python
    DEFAULT_TTS_MODEL_CFG = [
        "hf://hotstone228/F5-TTS-Russian/model_last.safetensors",
        "hf://hotstone228/F5-TTS-Russian/vocab.txt",
        json.dumps({"dim": 1024, "depth": 22, "heads": 16, "ff_mult": 2, "text_dim": 512, "text_mask_padding": False, "conv_layers": 4, "pe_attn_head": 1})
    ]
  6. 西班牙语:

    python
    DEFAULT_TTS_MODEL_CFG = [
        "hf://jpgallegoar/F5-Spanish/model_last.safetensors",
        "hf://jpgallegoar/F5-Spanish/vocab.txt",
        json.dumps({"dim": 1024, "depth": 22, "heads": 16, "ff_mult": 2, "text_dim": 512, "conv_layers": 4})
    ]
  7. 芬兰语:

    python
       DEFAULT_TTS_MODEL_CFG = [
        "hf://AsmoKoskinen/F5-TTS_Finnish_Model/model_common_voice_fi_vox_populi_fi_20241206.safetensors",
        "hf://AsmoKoskinen/F5-TTS_Finnish_Model/vocab.txt",
        json.dumps({"dim": 1024, "depth": 22, "heads": 16, "ff_mult": 2, "text_dim": 512, "text_mask_padding": False, "conv_layers": 4, "pe_attn_head": 1})]

可关注官方更新,其他语言可使用类似方式增加,地址:https://github.com/SWivid/F5-TTS/blob/main/src/f5_tts/infer/SHARED.md

常见错误和注意事项

  1. API 使用过程中,您可以关闭浏览器中的 WebUI 界面,但不能关闭启动 F5-TTS 的终端窗口

    这个界面不可关闭,否则api无法调用

  2. 能否动态切换 F5-TTS 中的模型? 不可以。您需要按照上述方式手动修改代码,然后重启 WebUI。

  3. 频频出现这类错误

    raise ConnectTimeout(e, request=request)
requests.exceptions.ConnectTimeout: (MaxRetryError("HTTPSConnectionPool(host='huggingface.co', port=443): Max retries exceeded with url: /SWivid/F5-TTS/resolve/main/F5TTS_v1_Base/vocab.txt (Caused by ConnectTimeoutError(<urllib3.connection.HTTPSConnection object at 0x000002174796DF60>, 'Connection to huggingface.co timed out. (connect timeout=10)'))"), '(Request ID: 0458b571-90ab-4edd-ae59-b93bd603cdd0)')

梯子问题,请科学上网,并使用流畅的梯子,参照上方配置科学上网环境