原音色克隆与多角色配音
一:基于视频的原音色克隆
在翻译视频和音频功能中,可在配音渠道中选择 F5-TTS/Qwen-TTS/GPT-SoVITS/CosyVoice/Chatterbox/clone-voice等,选中clone角色,将会以视频中原声音作为参考音频进行配音,得到原音色的配音。

主界面中角色选择 clone,就可以进行克隆音色配音了
- F5-TTS: 支持中文、英文配音
- Qwen-TTS(本地): 支持中英日韩等多种配音
- CosyVoice: 支持 中文、英文、日文、韩文、德文、西班牙文、法文、意大利文、俄文配音
- GPT-SoVITS: 支持中文、日语、英语、韩语、粤语配音
- Chatterbox: 支持阿拉伯语、德语、英语、西班牙语、法语、希伯来语、印地语、意大利语、日语、韩语、马来语、波兰语、葡萄牙语、俄语、瑞典语、土耳其语和中文配音

优化克隆的设置
打开 菜单--工具--高级设置--语音识别参数区域:建议将最短语音持续毫秒设为 3000 ,将最长语音持续秒数设为 10 ,因为 语音克隆时会自动将字幕时长对应的原始语音片段作为参考音频,而多数配音渠道均要求该参考音频时长在 3-10s 之间,否则配音很可能失败。 同时应该选中 Whisper预分割音频以及合并过短字幕到相邻,以确保字幕时长能够落在 3-10s 之间
二:基于字幕的多角色配音
从 v3.74 后新增了"字幕多角色配音"功能,点击左侧工具栏的字幕多角色配音按钮,在弹出的窗口中,导入需要配音的 srt 字幕,然后为每条字幕分别设置一个角色,即可实现多角色发音。

