Skip to content

该页面F5-TTS对接 pyVideoTrans 方式只适用于 pyVideoTrans V3.66之后的版本,请确保使用对应的官方开源项目中的webui.py


v3.68 起,该接口可同时用于 F5-TTS/Spark-TTS/index-TTS/Dia-TTS/VoxCPM, 只需要填写正确的url地址(本机通常是http://127.0.0.1:7860)并在下拉列表中选择对应服务即可。

F5-tts Windows整合包:

源码部署方法请参照官方项目说明文档部署 https://github.com/SWivid/F5-TTS

index-tts部署方法

dia-1.6b 部署方法

spark-tts 部署方法

VoxCPM-tts 部署方法


配置

为了在视频翻译软件中使用 TTS,您需要先启动 对应的TTS webui界面,并保持终端窗口处于打开状态。

然后,在该配置页面填写url地址,默认为 http://127.0.0.1:7860。如果您的启动地址不是默认地址,请按照实际地址填写。

在“参考音频”一栏中,填写以下内容:

想要使用的音频文件名#该音频文件中对应的文字

注意: 请将参考音频文件放置在 pyVideotrans 项目根目录下的 f5-tts 文件夹内。如果该文件夹不存在,请手动创建。例如,您可以将参考音频文件命名为 nverguo.wav

参考音频放到pyVideotrans软件内的f5-tts文件夹内,别搞错

填写示例如下:

参考音频和参考音频内文字

点击查看Spark-TTS源码部署方法点击查看index-TTS源码部署方法点击查看Dia-1.6b源码部署方法点击查看VoxCPM 整合包

增加其他语言

如果您需要使用其他语言的模型,也需要修改 F5-TTS 项目目录/src/f5_tts/infer/infer_gradio.py 文件。

找到大约第 59 行的代码:

python
DEFAULT_TTS_MODEL_CFG = [
    "hf://SWivid/F5-TTS/F5TTS_v1_Base/model_1250000.safetensors",
    "hf://SWivid/F5-TTS/F5TTS_v1_Base/vocab.txt",
    json.dumps(dict(dim=1024, depth=22, heads=16, ff_mult=2, text_dim=512, conv_layers=4)),
]

代码位置示意图:

默认情况下,这里配置的是官方的中文和英文模型。 如果您需要使用其他语言的模型,请按照以下说明进行修改。 修改完成后,需要重新启动 F5-TTS,并确保已配置好科学上网环境,以便程序在线下载新的语言模型。 下载成功后,先通过 WebUI 克隆一个音色进行测试,然后再通过 pyVideoTrans 使用。

重要提示:在使用前,请确保 pyVideoTrans 中的配音文字语言与 F5-TTS 中选择的模型语言一致。

以下是各语言模型的配置信息:

  1. 法语:

    python
    DEFAULT_TTS_MODEL_CFG = [
        "hf://RASPIAUDIO/F5-French-MixedSpeakers-reduced/model_last_reduced.pt",
        "hf://RASPIAUDIO/F5-French-MixedSpeakers-reduced/vocab.txt",
        json.dumps({"dim": 1024, "depth": 22, "heads": 16, "ff_mult": 2, "text_dim": 512, "text_mask_padding": False, "conv_layers": 4, "pe_attn_head": 1}),
    ]
  2. 印地语:

    python
    DEFAULT_TTS_MODEL_CFG = [
        "hf://SPRINGLab/F5-Hindi-24KHz/model_2500000.safetensors",
        "hf://SPRINGLab/F5-Hindi-24KHz/vocab.txt",
        json.dumps({"dim": 768, "depth": 18, "heads": 12, "ff_mult": 2, "text_dim": 512, "text_mask_padding": False, "conv_layers": 4, "pe_attn_head": 1})
    ]
  3. 意大利语:

    python
    DEFAULT_TTS_MODEL_CFG = [
        "hf://alien79/F5-TTS-italian/model_159600.safetensors",
        "hf://alien79/F5-TTS-italian/vocab.txt",
        json.dumps({"dim": 1024, "depth": 22, "heads": 16, "ff_mult": 2, "text_dim": 512, "text_mask_padding": False, "conv_layers": 4, "pe_attn_head": 1})
    ]
  4. 日语:

    python
    DEFAULT_TTS_MODEL_CFG = [
        "hf://Jmica/F5TTS/JA_25498980/model_25498980.pt",
        "hf://Jmica/F5TTS/JA_25498980/vocab_updated.txt",
        json.dumps({"dim": 1024, "depth": 22, "heads": 16, "ff_mult": 2, "text_dim": 512, "text_mask_padding": False, "conv_layers": 4, "pe_attn_head": 1})
    ]
  5. 俄语:

    python
    DEFAULT_TTS_MODEL_CFG = [
        "hf://hotstone228/F5-TTS-Russian/model_last.safetensors",
        "hf://hotstone228/F5-TTS-Russian/vocab.txt",
        json.dumps({"dim": 1024, "depth": 22, "heads": 16, "ff_mult": 2, "text_dim": 512, "text_mask_padding": False, "conv_layers": 4, "pe_attn_head": 1})
    ]
  6. 西班牙语:

    python
    DEFAULT_TTS_MODEL_CFG = [
        "hf://jpgallegoar/F5-Spanish/model_last.safetensors",
        "hf://jpgallegoar/F5-Spanish/vocab.txt",
        json.dumps({"dim": 1024, "depth": 22, "heads": 16, "ff_mult": 2, "text_dim": 512, "conv_layers": 4})
    ]
  7. 芬兰语:

    python
       DEFAULT_TTS_MODEL_CFG = [
        "hf://AsmoKoskinen/F5-TTS_Finnish_Model/model_common_voice_fi_vox_populi_fi_20241206.safetensors",
        "hf://AsmoKoskinen/F5-TTS_Finnish_Model/vocab.txt",
        json.dumps({"dim": 1024, "depth": 22, "heads": 16, "ff_mult": 2, "text_dim": 512, "text_mask_padding": False, "conv_layers": 4, "pe_attn_head": 1})]

可关注官方更新,其他语言可使用类似方式增加,地址:https://github.com/SWivid/F5-TTS/blob/main/src/f5_tts/infer/SHARED.md

常见错误和注意事项

  1. API 使用过程中,您可以关闭浏览器中的 WebUI 界面,但不能关闭启动 F5-TTS 的终端窗口

    这个界面不可关闭,否则api无法调用

  2. 能否动态切换 F5-TTS 中的模型? 不可以。您需要按照上述方式手动修改代码,然后重启 WebUI。

  3. 频频出现这类错误

    raise ConnectTimeout(e, request=request)
requests.exceptions.ConnectTimeout: (MaxRetryError("HTTPSConnectionPool(host='huggingface.co', port=443): Max retries exceeded with url: /SWivid/F5-TTS/resolve/main/F5TTS_v1_Base/vocab.txt (Caused by ConnectTimeoutError(<urllib3.connection.HTTPSConnection object at 0x000002174796DF60>, 'Connection to huggingface.co timed out. (connect timeout=10)'))"), '(Request ID: 0458b571-90ab-4edd-ae59-b93bd603cdd0)')

梯子问题,请科学上网,并使用流畅的梯子,参照上方配置科学上网环境