Skip to content

CosyVoice开源地址 https://github.com/FunAudioLLM/CosyVoice

在视频翻译软件中使用

CosyVoice3官方自带的 webui.py 无法用于对接,因其中的audio组件流式,导致api调用时返回m3u8文件,而非wav音频

请按如下方法处理

  1. 部署好官方项目,确认可以启动webui.py,并在ui界面中成功完成一次配音操作,然后下载修改版webui.py文件,并覆盖官方自带的,然后重新启动。 下载地址:https://github.com/jianchang512/stt/releases/download/0.0/cosyvoice3-webui-py.zip
  2. 如果是windows系统,直接使用整合包,下载地址: https://pan.baidu.com/s/1g1dSIfyX0wLhtPtQOMX-tA?pwd=1234https://github.com/jianchang512/stt/releases/download/0.0/cosyvoice3-0.5B_20251216.7z

启动并在pyVideoTrans中使用

  1. 首先升级pyVideoTrans软件到最新
  2. 确保已部署CosyVoice项目,并启动了 webui.py, 可以在浏览器中打开 http://127.0.0.1:8000 界面。
  3. 打开视频翻译软件,左上角设置--CosyVoice:填写 webui.py 地址,默认是 http://127.0.0.1:8000
  4. 填写参考音频和音频对应文字
参考音频填写:

每行都由#符号分割为两部分,第一部分是wav音频路径,第二部分是该音频对应的文字内容,可填写多行。

wav音频时长必须小于10s,音频必须放在本项目pyVideoTrans的`f5-tts`目录下,这里直接填写名称即可.
需要是wav格式的音频。

参考音频填写示例:

1.wav#你好啊亲爱的朋友
2.wav#你好啊朋友们
  1. 填写完毕后,主界面中配音渠道选择 CosyVoice, 角色选择对应的即可。其中 clone 角色是复制原视频中的音色

注意事项

  • 第一次使用会自动从 modelscope.cn 下载模型,用时较久,耐心等待