如何使用原视频中音色配音

在配音操作中，我们通常选择一个固定的音色，如“yunxi”、“xiaoyi”或“解说小帅”，并在整段配音中只使用该音色。然而，对于多说话人的场景，单一音色的使用可能不够理想。更好的效果是每个说话人对应一个特定音色，最好是与原视频中说话人的音色一致。例如，如果原视频中的八戒在说话，翻译成英语后依然保持八戒的音色，那么就需要用到原音色克隆功能。

目前，该软件支持3个配音渠道来实现原音色克隆，分别是 clone-voice、CosyVoice 和 F5-TTS。

原理：对某个片段配音时（例如 00:00:03 --> 00:00:08），会先剪切出该片段的原音频，获取音频对应的原始文字内容和翻译后的目标文字。然后将这些数据传送至配音渠道，该渠道参考原音频的音色生成目标文字的配音。

使用 clone-voice 配音渠道

需要安装 https://github.com/jianchang512/clone-voice 项目，打开该项目主页后，仔细阅读说明，可使用源码部署该 clone-voice 项目，如果是 Windows系统，也可直接右侧中部找到 Releases (https://github.com/jianchang512/clone-voice/releases) ，直接下载整合包，下载解压后双击 app.exe 即可启动。

当显示启动成功后，将默认api地址 http://127.0.0.1:9988 填写到视频翻译软件 菜单--TTS设置--原音色克隆 clone-voice 的 http地址内，测试无问题后就可开始使用了