🚀 零基础一键运行!Qwen3-TTS 语音合成/克隆 Windows 整合包使用教程
👋 前言
Qwen3-TTS 是一款非常强大的语音合成(TTS)模型,不仅能根据文字生成语音,还能克隆你的声音,甚至通过文字描述来设计一个从未存在过的声音!
通常部署这种开源大模型需要复杂的 Python 环境、各种依赖库安装,对非技术人员来说门槛极高。
我制作了一个 Windows 10/11 专用的一键整合包。 ✅ 无需手动安装 Python ✅ 无需配置复杂的环境变量 ✅ 内置环境管理工具(uv.exe) ✅ 自动下载模型(已配置国内加速)
你只需要下载整合包,解压,双击,即可开始使用!
📂 第一步:下载与解压
- 下载我提供的整合包压缩文件。
- 【重要】 请将压缩包解压到一个没有中文、没有空格的路径下(例如
D:\AI\QwenTTS)。- 错误示范:
C:\Users\张三\桌面\新建文件夹 - 正确示范:
D:\Tools\Qwen-TTS
- 错误示范:
- 打开文件夹,你应该会看到如下图所示的文件结构:

🖱️ 第二步:选择你需要的功能(5个启动脚本)
下载解压后,首先双击 0解压后立即点此安装运行环境.bat 该文件安装配置环境,仅需运行该文件一次
文件夹内有 5 个 .bat 文件,它们分别对应不同的功能和模型大小。你可以根据自己的电脑配置和需求选择双击哪一个。
1️⃣ 如果你想“克隆”声音(基于参考音频)
这种模式允许你上传一段 3-10 秒的参考音频,AI 会模仿这个声音说话。
- 🎧 启动语音克隆-0.6B模型.bat
- 特点:速度快,对电脑配置要求低,适合尝鲜。
- 🎧 启动语音克隆-1.7B模型.bat
- 特点:效果更好,声音更逼真,但生成速度稍慢,对电脑性能要求稍高。
2️⃣ 如果你想“设计”声音(Voice Design)
这种模式不需要参考音频,你可以直接用文字描述声音特征,例如:“一个深沉的、有磁性的中年男性声音”。
- 🎨 启动声音设计.bat (使用的是 1.7B 模型)
- 玩法:输入 Prompt(提示词)来创造独一无二的声音。
3️⃣ 如果你想使用“预设”角色(自定义音色)
这种模式内置了 Vivian, Uncle_fu, Sohee 等预设的高质量音色,稳定且好听。
- 👤 启动自定义音色-0.6B模型.bat
- 👤 启动自定义音色-1.7B模型.bat
- 注意:此模式下不能使用参考音频,只能从下拉菜单选择角色。
⚙️ 第三步:启动与自动配置
- 双击你选择的
.bat文件。 - 会出现一个黑色的命令行窗口。请不要关闭它!
- 如果是第一次运行,工具会自动为你配置环境并下载模型文件。
- 这里已内置了国内加速源(hf-mirror.com),下载速度有保障。
- 根据你的网速,可能需要等待几分钟到十几分钟,请耐心等待。
- 当黑色窗口中出现以下字样时,说明启动成功了:text
* To create a public link, set `share=True` in `launch()`.

🌐 第四步:开始使用
- 打开你的浏览器(推荐 Chrome 或 Edge)。
- 在地址栏输入:
http://127.0.0.1:8000并回车。 - 你将看到 Qwen3-TTS 的操作界面:
- 输入框:输入你想让 AI 读的文字。
- 参考音频/Prompt:根据你启动的模式,上传音频或输入描述。
- Generate(生成):点击按钮,见证奇迹!

⚡ 高手进阶:如何开启显卡(GPU)加速?
默认情况下,为了保证所有人的电脑(包括没有独立显卡的笔记本)都能运行,我将配置设置为了 CPU 模式。
如果你拥有一张 NVIDIA(英伟达)显卡 并且已经安装好了 CUDA 环境,你可以通过简单的修改来获得 10 倍以上的推理速度!
- 安装cuda版本的torch 如果你的cuda是 12.x
在整合包下bat所在文件夹内,地址栏清空,输入 cmd 后回车,接着输入以下命令,等待安装完毕再重新启动
runtime\python -m pip install --force-reinstall torch torchaudio --index-url https://download.pytorch.org/whl/cu128
如果是 13.X
在bat所在文件夹内,地址栏清空,输入 cmd 后回车,接着输入以下命令,等待安装完毕再重新启动 runtime\python -m pip install --force-reinstall torch torchaudio --index-url https://download.pytorch.org/whl/cu130
- 右键点击你想修改的
.bat文件,选择“编辑”(或用记事本打开)。 - 找到文件最后一行包含以下代码的部分:batch
--device cpu --dtype float32 - 删除 这段代码(即删除
--device cpu --dtype float32)。 - 保存文件,重新双击运行即可。程序会自动调用你的 GPU 进行加速。
❓ 常见问题
- Q: 双击后闪退怎么办?
- A: 请检查解压路径是否包含中文或空格。请确保安装了 VC++ 运行库(通常玩游戏的电脑都有)。
- Q: 生成速度很慢?
- A: 默认 CPU 模式确实比 GPU 慢。如果你有 N 卡,建议按照“高手进阶”部分开启加速。1.7B 模型比 0.6B 慢是正常的。
- Q: 第一次启动卡住不动了?
- A: 这是在下载模型,文件较大(几GB),请看黑色窗口是否有进度条或下载提示,只要不报错就请耐心等待。
问题:报错
Cannot find a function with api_name: /run_voice_clone解决:出现这个报错,说明你在pyVideoTrans中使用了clone角色或者使用了参考音频进行配音,这要求你必须启动 qwen-tts 的 语音克隆模型即Qwen3-TTS-12Hz-0.6B-Base或Qwen3-TTS-12Hz-1.7B-Base,而你启动了其他模型,例如启动的是自定义音色模型(只可使用内置音色)或声音设计模型(不支持在pyVideoTrans中使用)。 如果你是在菜单--TTS设置--Qwen-tts(本地)界面测试时遇到的这个报错,可尝试删掉参考音频文本框内容后再测试,会使用内置音色Vivian连接自定义音色模型,确保你已启动自定义音色模型。问题:报错
Cannot find a function with api_name: /run_instruct解决:出现这个报错,说明你在使用qwen-tts的自定义模型的内置音色("Vivian","Serena","Uncle_fu","Dylan","Eric","Ryan","Aiden","Ono_anna","Sohee"),但并没有对应启动自定义模型(Qwen3-TTS-12Hz-0.6B-CustomVoice、Qwen3-TTS-12Hz-1.7B-CustomVoice),请去启动问题:启动了 VoiceDesign 模型但报错 解决:pyVideoTrans软件仅支持 qwen-tts 的 语音克隆模型和自定义音色模型,不支持 声音设计模型即VoiceDesign系列模型
