使用GPT-SoVITS配音 | pyVideoTrans官网-开源免费视频翻译配音软件 pyvideotrans.com pyvideotrans github github.com/jianchang512/pyvideotrans

GPT-SoVITS 是一款出色的多语言文本到语音（TTS）开源项目，支持中、英、日、韩等多种语言，主要功能包括：

零样本文本到语音（TTS）： 仅需5秒的声音样本，即可快速生成语音。

少样本 TTS： 只需1分钟的训练数据即可对模型进行微调，从而提升音色相似度和自然度。

跨语言支持： 支持与训练数据集不同语言的合成，目前支持英语、日语、韩语、粤语和中文。

GPT-SoVITS现已升级至v2版本，新增以下特性：

GPT-SOVITS 用户手册 https://www.yuque.com/baicaigongchang1145haoyuangong/ib3g1e

视频翻译软件已集成GPT-SoVITS v2版本，本文将简要介绍如何下载GPT-SoVITS整合包并在视频翻译软件中使用。

下载整合包

建议下载GPT-SoVITS的官方整合包，以确保兼容性。第三方API接口与官方不兼容，可能导致视频翻译软件报错。

在GPT-SoVITS文件夹内的地址栏输入cmd并回车，在弹出的终端窗口中输入 .\runtime\python api_v2.py 即可启动API服务。

默认端口为9880。在视频翻译软件中需要填入 http://127.0.0.1:9880。

必须启动api服务才可在翻译软件中使用

启动软件，依次点击 菜单 -> TTS设置 -> GPT-SoVITS，将 http://127.0.0.1:9880 填写在 API 文本框 中。

注意：默认端口为9880，如果修改端口，API地址也需相应更改。此外，请确保在本地部署时，地址应填写 127.0.0.1，而不是 0.0.0.0。

注意：参考音频必须是wav格式，并且时长在 5-10 秒，否则会报 400 Client error 错误

参考音频是指GPT-SoVITS会使用该音频的音色进行语音合成。假设您有一个音频文件 1.wav（时长5秒，内容为“今天是个好天气，瓢泼大雨倾盆下”），可将该文件复制到GPT-SoVITS文件夹，与 api_v2.py 文件放置于同一位置，并在软件的参考音频文本框中填入相应内容。

语言代码：zh表示中文，en表示英文，ja表示日语，ko表示韩语。

若您将参考音频文件统一存放在GPT-SoVITS目录内的wavs文件夹中，则参考音频路径应为 wavs/1.wav#今天是个好天气，瓢泼大雨倾盆下#zh。

若启动的是 api_v2.py 文件，请确保选中 api_v2? 选项。

点击测试，若无报错，则配置成功。