Skip to content

CosyVoice2-TTS Windows一键整合包:零基础也能轻松玩转的AI语音合成

您是否惊叹于阿里开源的 CosyVoice2 AI语音合成技术,但又被复杂且总是报错的安装过程劝退?

别担心,这个一键整合包就是为您量身打造的!

有了它,您无需安装Python,也无需和各种复杂的报错作斗争,只需在 Windows 10 或 Windows 11 系统上简单几步,就能轻松体验顶尖的AI语音合成技术。

简单了解 CosyVoice2 的强大之处

CosyVoice2 是一个非常强大的多语言语音合成模型,它能生成极其准确、稳定且自然流畅的语音。

  • 支持多种语言: 包含中文、英文、日文、韩文,甚至还有粤语、四川话、上海话等多种中国方言。
  • 跨语言声音克隆: 你可以用一段中文声音,让它说出地道的英文,反之亦然。
  • 超低延迟: 响应速度飞快,最快150毫秒就能听到生成的声音。
  • 发音更准确: 相比前代,错误率降低了30%-50%,发音非常标准。
  • 音色超稳定: 无论怎么使用,都能保持声音的一致性和稳定性。
  • 情感和口音控制: 支持更精细的情感控制和口音调整,让声音更富表现力。

🚀 只需三步,即可开启您的AI语音之旅

第一步:下载整合包

首先,您需要下载名为 cosyvoice2-win.7z 的整合包文件。我们提供了两个下载渠道,您可以选择一个速度快的进行下载:

特别提醒: 这是一个 .7z 格式的压缩包。如果您的电脑无法直接打开,或者解压时出现错误提示,建议安装 360压缩Bandizip 这类免费且强大的解压软件后再试。

第二步:解压文件

下载完成后,找到这个压缩包。用鼠标右键点击它,选择“解压到当前文件夹”或“解压到 cosyvoice2”。解压后,您会得到一个同名的新文件夹。

第三步:双击启动!

打开刚刚解压出来的文件夹,找到一个名为 双击启动.bat 的文件。

直接用鼠标双击它,程序就开始运行了!

双击后会发生什么?

这时,一个黑色窗口会弹出来(我们称之为“命令提示符”)。请不要关闭这个窗口,程序正在后台为您处理一切:

  1. 自动下载模型文件: 程序会首先检查运行所需的AI模型文件(大约几个G)是否齐全。如果发现文件缺失,它会自动开始下载。您会在窗口里看到下载进度。这个过程耗时较长,取决于您的网速,请耐心等待。

网络提示: 如果下载中途失败,想重新下载,请先进入 pretrained_models 文件夹,将里面下载不完整的模型文件夹删掉,然后重新运行“双击启动.bat”。

  1. 启动核心服务: 模型准备就绪后,程序会自动启动WebUI服务。这是您用来进行语音合成的操作界面。

  2. 看到成功提示: 请继续等待,直到您在黑色窗口里看到类似下面的信息,就代表大功告成!

    Running on local URL:  http://127.0.0.1:8000
    
    To create a public link, set `share=True` in `launch()`.

意味着 CosyVoice2 已经在您的电脑上成功运行起来了!


💻 开始您的AI语音创作

请保持那个黑色的窗口不要关闭,然后打开您的浏览器(推荐使用Chrome或Edge),在顶部的地址栏里输入:

http://127.0.0.1:8000

按下回车,您就能看到简洁又强大的操作界面了。现在,您可以尽情探索,输入文字,上传声音样本,生成独一无二的AI语音了!

如何关闭程序? 非常简单,当您使用完毕后,直接关闭那个一直开着的黑色窗口即可。


🔧 进阶玩法:切换不同的声音模型

本整合包内置了多个模型,每个模型都有不同的特点。默认启动的是效果最全面的 CosyVoice2-0.5B 模型。如果您有特殊需求,可以手动切换。

  • CosyVoice-300M-SFT想使用内置的多种预设音色时,必须用这个。
  • CosyVoice-300M-Instruct想通过文字描述(如“用温柔的语气说”)来控制声音时,必须用这个。
  • CosyVoice2-0.5B:最新最强的模型,综合效果最好(默认选项)。
  • CosyVoice-300M:一个基础模型。

切换方法:

  1. 在文件夹中找到 双击启动.bat 文件,用鼠标右键点击它,选择“编辑”。(如果没看到“编辑”,就选择“打开方式” -> “记事本”)
  2. 您会看到以下几行代码:
    batch
    call %cd%/pybin/python webui.py --model_dir pretrained_models/CosyVoice2-0.5B
    rem call %cd%/pybin/python webui.py --model_dir pretrained_models/CosyVoice-300M
    rem call %cd%/pybin/python webui.py --model_dir pretrained_models/CosyVoice-300M-Instruct
    rem call %cd%/pybin/python webui.py --model_dir pretrained_models/CosyVoice-300M-SFT
  3. rem 在这里是“注释”的意思,代表这一行代码暂时不起作用。
    • 要禁用当前模型: 在它那行代码的最前面加上 rem (rem后面有个空格)。
    • 要启用目标模型: 把目标模型那行代码最前面rem 删掉。
  4. 修改完成后,保存并关闭记事本,再重新“双击启动.bat”即可(必须先关闭已启动的bat)。

例如,要切换到 CosyVoice-300M-SFT 模型,您需要修改成这样:

batch
rem call %cd%/pybin/python webui.py --model_dir pretrained_models/CosyVoice2-0.5B
rem call %cd%/pybin/python webui.py --model_dir pretrained_models/CosyVoice-300M
rem call %cd%/pybin/python webui.py --model_dir pretrained_models/CosyVoice-300M-Instruct
call %cd%/pybin/python webui.py --model_dir pretrained_models/CosyVoice-300M-SFT

❓ 常见问题解答

  1. 启动后程序闪退,或者黑窗口里报错 ValueError: When localhost is not accessible... 怎么办?

解决办法: 这通常是因为您的电脑开启了网络代理或VPN软件(比如一些加速器)。它们占用了程序需要使用的本地网络端口。 请关闭您的VPN或网络代理软件,然后重新双击启动程序。

  1. 双击run-api.bat 运行api, 报错CosyVoice.__init__() got an unexpected keyword argument 'load_onnx'?

解决办法: 打开 api.py 文件(编辑器或记事本),搜索 load_jit=True, load_onnx=False 找到后删掉, 搜索 load_jit=True, load_onnx=False, load_trt=False ,找到后删掉,这个代码有2处

专为进阶用户:API 对接

整合包中还包含了一个 run-api.bat 文件。如果您是开发者,并希望将 CosyVoice2 的语音合成能力对接到其他程序(如 pyVideoTrans)中,可以双击此文件来启动API服务。