CosyVoice2-TTS Windows一键整合包:零基础也能轻松玩转的AI语音合成
- 下载地址 1 从百度网盘下载
- 下载地址 2 从HuggingFace.co下载
您是否惊叹于阿里开源的 CosyVoice2
AI语音合成技术,但又被复杂且总是报错的安装过程劝退?
别担心,这个一键整合包就是为您量身打造的!
有了它,您无需安装Python,也无需和各种复杂的报错作斗争,只需在 Windows 10 或 Windows 11 系统上简单几步,就能轻松体验顶尖的AI语音合成技术。
简单了解 CosyVoice2 的强大之处
CosyVoice2 是一个非常强大的多语言语音合成模型,它能生成极其准确、稳定且自然流畅的语音。
- 支持多种语言: 包含中文、英文、日文、韩文,甚至还有粤语、四川话、上海话等多种中国方言。
- 跨语言声音克隆: 你可以用一段中文声音,让它说出地道的英文,反之亦然。
- 超低延迟: 响应速度飞快,最快150毫秒就能听到生成的声音。
- 发音更准确: 相比前代,错误率降低了30%-50%,发音非常标准。
- 音色超稳定: 无论怎么使用,都能保持声音的一致性和稳定性。
- 情感和口音控制: 支持更精细的情感控制和口音调整,让声音更富表现力。
🚀 只需三步,即可开启您的AI语音之旅
第一步:下载整合包
首先,您需要下载名为 cosyvoice2-win.7z
的整合包文件。我们提供了两个下载渠道,您可以选择一个速度快的进行下载:
- 下载地址 1: 从百度网盘下载
- 下载地址 2: 从HuggingFace.co下载
特别提醒: 这是一个
.7z
格式的压缩包。如果您的电脑无法直接打开,或者解压时出现错误提示,建议安装 360压缩 或 Bandizip 这类免费且强大的解压软件后再试。
第二步:解压文件
下载完成后,找到这个压缩包。用鼠标右键点击它,选择“解压到当前文件夹”或“解压到 cosyvoice2”。解压后,您会得到一个同名的新文件夹。
第三步:双击启动!
打开刚刚解压出来的文件夹,找到一个名为 双击启动.bat
的文件。
直接用鼠标双击它,程序就开始运行了!
双击后会发生什么?
这时,一个黑色窗口会弹出来(我们称之为“命令提示符”)。请不要关闭这个窗口,程序正在后台为您处理一切:
- 自动下载模型文件: 程序会首先检查运行所需的AI模型文件(大约几个G)是否齐全。如果发现文件缺失,它会自动开始下载。您会在窗口里看到下载进度。这个过程耗时较长,取决于您的网速,请耐心等待。
网络提示: 如果下载中途失败,想重新下载,请先进入
pretrained_models
文件夹,将里面下载不完整的模型文件夹删掉,然后重新运行“双击启动.bat”。
启动核心服务: 模型准备就绪后,程序会自动启动WebUI服务。这是您用来进行语音合成的操作界面。
看到成功提示: 请继续等待,直到您在黑色窗口里看到类似下面的信息,就代表大功告成!
Running on local URL: http://127.0.0.1:8000 To create a public link, set `share=True` in `launch()`.
意味着 CosyVoice2 已经在您的电脑上成功运行起来了!
💻 开始您的AI语音创作
请保持那个黑色的窗口不要关闭,然后打开您的浏览器(推荐使用Chrome或Edge),在顶部的地址栏里输入:
http://127.0.0.1:8000
按下回车,您就能看到简洁又强大的操作界面了。现在,您可以尽情探索,输入文字,上传声音样本,生成独一无二的AI语音了!
如何关闭程序? 非常简单,当您使用完毕后,直接关闭那个一直开着的黑色窗口即可。
🔧 进阶玩法:切换不同的声音模型
本整合包内置了多个模型,每个模型都有不同的特点。默认启动的是效果最全面的 CosyVoice2-0.5B
模型。如果您有特殊需求,可以手动切换。
CosyVoice-300M-SFT
:想使用内置的多种预设音色时,必须用这个。CosyVoice-300M-Instruct
:想通过文字描述(如“用温柔的语气说”)来控制声音时,必须用这个。CosyVoice2-0.5B
:最新最强的模型,综合效果最好(默认选项)。CosyVoice-300M
:一个基础模型。
切换方法:
- 在文件夹中找到
双击启动.bat
文件,用鼠标右键点击它,选择“编辑”。(如果没看到“编辑”,就选择“打开方式” -> “记事本”) - 您会看到以下几行代码:batch
call %cd%/pybin/python webui.py --model_dir pretrained_models/CosyVoice2-0.5B rem call %cd%/pybin/python webui.py --model_dir pretrained_models/CosyVoice-300M rem call %cd%/pybin/python webui.py --model_dir pretrained_models/CosyVoice-300M-Instruct rem call %cd%/pybin/python webui.py --model_dir pretrained_models/CosyVoice-300M-SFT
rem
在这里是“注释”的意思,代表这一行代码暂时不起作用。- 要禁用当前模型: 在它那行代码的最前面加上
rem
(rem后面有个空格)。 - 要启用目标模型: 把目标模型那行代码最前面的
rem
删掉。
- 要禁用当前模型: 在它那行代码的最前面加上
- 修改完成后,保存并关闭记事本,再重新“双击启动.bat”即可(必须先关闭已启动的bat)。
例如,要切换到 CosyVoice-300M-SFT
模型,您需要修改成这样:
rem call %cd%/pybin/python webui.py --model_dir pretrained_models/CosyVoice2-0.5B
rem call %cd%/pybin/python webui.py --model_dir pretrained_models/CosyVoice-300M
rem call %cd%/pybin/python webui.py --model_dir pretrained_models/CosyVoice-300M-Instruct
call %cd%/pybin/python webui.py --model_dir pretrained_models/CosyVoice-300M-SFT
❓ 常见问题解答
- 启动后程序闪退,或者黑窗口里报错
ValueError: When localhost is not accessible...
怎么办?
解决办法: 这通常是因为您的电脑开启了网络代理或VPN软件(比如一些加速器)。它们占用了程序需要使用的本地网络端口。 请关闭您的VPN或网络代理软件,然后重新双击启动程序。
- 双击
run-api.bat
运行api, 报错CosyVoice.__init__() got an unexpected keyword argument 'load_onnx'
?
解决办法: 打开 api.py
文件(编辑器或记事本),搜索 load_jit=True, load_onnx=False
找到后删掉, 搜索 load_jit=True, load_onnx=False, load_trt=False
,找到后删掉,这个代码有2处
专为进阶用户:API 对接
整合包中还包含了一个 run-api.bat
文件。如果您是开发者,并希望将 CosyVoice2 的语音合成能力对接到其他程序(如 pyVideoTrans
)中,可以双击此文件来启动API服务。