零基础一键运行！Qwen3-TTS 语音合成/克隆 Windows 整合包使用教程

前言

Qwen3-TTS 是一款非常强大的语音合成（TTS）模型，不仅能根据文字生成语音，还能克隆你的声音，甚至通过文字描述来设计一个从未存在过的声音！

通常部署这种开源大模型需要复杂的 Python 环境、各种依赖库安装，对非技术人员来说门槛极高。

本整合包是 Windows 10/11 专用的一键整合包：

无需手动安装 Python
无需配置复杂的环境变量
内置环境管理工具（uv.exe）
自动下载模型（已配置国内加速）

你只需要下载整合包，解压，双击，即可开始使用！

前置条件

条件	说明
操作系统	Windows 10/11
磁盘空间	建议预留 10GB 以上
硬件	CPU 可运行，有 NVIDIA 显卡可开启 GPU 加速（10 倍提速）

第一步：下载与解压

下载整合包压缩文件：

【重要】 请将压缩包解压到一个没有中文、没有空格的路径下（例如 D:\AI\QwenTTS）
- 错误示范：C:\Users\张三\桌面\新建文件夹
- 正确示范：D:\Tools\Qwen-TTS
打开文件夹，你应该会看到如下图所示的文件结构：

第二步：安装运行环境（仅需一次）

下载解压后，首先双击 0解压后立即点此安装运行环境.bat，该文件会安装配置环境，仅需运行一次。

第三步：选择功能（5 个启动脚本）

文件夹内有 5 个 .bat 文件，分别对应不同的功能和模型大小，根据你的电脑配置和需求选择：

1. 语音克隆模式（基于参考音频）

这种模式允许你上传一段 3~10 秒的参考音频，AI 会模仿这个声音说话。

启动脚本	特点
启动语音克隆-0.6B模型.bat	速度快，对电脑配置要求低，适合尝鲜
启动语音克隆-1.7B模型.bat	效果更好，声音更逼真，但生成速度稍慢

2. 声音设计模式（Voice Design）

这种模式不需要参考音频，可以直接用文字描述声音特征，例如：「一个深沉的、有磁性的中年男性声音」。

启动脚本	特点
启动声音设计.bat	使用 1.7B 模型，输入 Prompt 创造独一无二的声音

注意：声音设计模式不支持在 pyVideoTrans 中使用，仅可在 WebUI 中体验。

3. 自定义音色模式（内置预设角色）

这种模式内置了 Vivian、Uncle_fu、Sohee 等预设的高质量音色，稳定且好听。

启动脚本	特点
启动自定义音色-0.6B模型.bat	速度较快
启动自定义音色-1.7B模型.bat	效果更好

注意：此模式下不能使用参考音频，只能从下拉菜单选择角色。

第四步：启动与自动配置

双击你选择的 .bat 文件
会出现一个黑色的命令行窗口，请不要关闭它！
如果是第一次运行，工具会自动为你配置环境并下载模型文件
- 已内置国内加速源（hf-mirror.com），下载速度有保障
- 根据网速，可能需要等待几分钟到十几分钟，请耐心等待
当黑色窗口中出现以下字样时，说明启动成功了：

text

* To create a public link, set `share=True` in `launch()`.

第五步：开始使用

打开浏览器（推荐 Chrome 或 Edge）
在地址栏输入：http://127.0.0.1:8000 并回车
你将看到 Qwen3-TTS 的操作界面：
- 输入框：输入你想让 AI 读的文字
- 参考音频/Prompt：根据你启动的模式，上传音频或输入描述
- Generate（生成）：点击按钮生成语音

在 pyVideoTrans 中使用

语音克隆模式

在 pyVideoTrans 中配置参考音频（菜单 → TTS设置 → Qwen-tts(本地)）
在主界面「配音渠道」中选择「Qwen3-TTS」
在「配音角色」中选择「clone」使用参考音频克隆

自定义音色模式

在 pyVideoTrans 中配置 Qwen3-TTS 地址
在主界面「配音渠道」中选择「Qwen3-TTS」
在「配音角色」中选择内置音色（如 Vivian、Serena 等）

报错说明

报错 Cannot find a function with api_name: /run_voice_clone：说明你在 pyVideoTrans 中使用了 clone 角色或参考音频，但启动的不是语音克隆模型。请启动 Qwen3-TTS-12Hz-0.6B-Base 或 Qwen3-TTS-12Hz-1.7B-Base。
报错 Cannot find a function with api_name: /run_instruct：说明你在使用内置音色，但启动的不是自定义音色模型。请启动 Qwen3-TTS-12Hz-0.6B-CustomVoice 或 Qwen3-TTS-12Hz-1.7B-CustomVoice。
启动 VoiceDesign 模型报错：pyVideoTrans 仅支持语音克隆模型和自定义音色模型，不支持声音设计模型。

高手进阶：开启 GPU 加速

默认情况下，为了保证所有人的电脑都能运行，配置设置为 CPU 模式。

如果你有 NVIDIA 显卡 并且已安装好 CUDA 环境，可通过以下步骤获得 10 倍以上推理速度：

第一步：安装 CUDA 版 PyTorch

在整合包 bat 所在文件夹内，地址栏清空输入 cmd 回车，然后执行以下命令：

CUDA 12.x 版本：

bash

runtime\python -m pip install --force-reinstall torch torchaudio --index-url https://download.pytorch.org/whl/cu128

CUDA 13.x 版本：

bash

runtime\python -m pip install --force-reinstall torch torchaudio --index-url https://download.pytorch.org/whl/cu130

第二步：修改启动脚本

右键点击你想修改的 .bat 文件，选择「编辑」（或用记事本打开）
找到文件最后一行包含以下代码的部分：

batch

--device cpu --dtype float32

删除这段代码（即删除 --device cpu --dtype float32）
保存文件，重新双击运行即可。程序会自动调用 GPU 进行加速

参考音频要求

项目	要求
格式	WAV 格式（推荐）
时长	3~10 秒
内容	发音清晰，无背景噪音
放置位置	pyVideoTrans 根目录下的 `f5-tts` 文件夹

常见问题

1. 双击后闪退怎么办？

请检查解压路径是否包含中文或空格。请确保安装了 VC++ 运行库（通常玩游戏的电脑都有）。

2. 生成速度很慢？

默认 CPU 模式确实比 GPU 慢。如果你有 NVIDIA 显卡，建议按照「高手进阶」部分开启加速。1.7B 模型比 0.6B 慢是正常的。

3. 第一次启动卡住不动了？

这是在下载模型，文件较大（几GB），请看黑色窗口是否有进度条或下载提示，只要不报错就请耐心等待。

4. 模型下载失败？

默认从 hf-mirror.com 下载，如果仍然失败，可尝试：

检查网络连接
使用科学上网访问 huggingface.co
手动下载模型文件放到 models 目录

5. 报错 `Cannot find a function with api_name: /run_voice_clone`？

你在 pyVideoTrans 中使用了 clone 角色或参考音频配音，这要求启动语音克隆模型（Base 模型），而你启动了其他模型（如自定义音色模型或声音设计模型）。请切换到正确的启动脚本。

零基础一键运行！Qwen3-TTS 语音合成/克隆 Windows 整合包使用教程 ​

前言 ​

前置条件 ​

第一步：下载与解压 ​

第二步：安装运行环境（仅需一次） ​

第三步：选择功能（5 个启动脚本） ​

1. 语音克隆模式（基于参考音频） ​

2. 声音设计模式（Voice Design） ​

3. 自定义音色模式（内置预设角色） ​

第四步：启动与自动配置 ​

第五步：开始使用 ​

在 pyVideoTrans 中使用 ​

语音克隆模式 ​

自定义音色模式 ​

报错说明 ​

高手进阶：开启 GPU 加速 ​

第一步：安装 CUDA 版 PyTorch ​

第二步：修改启动脚本 ​

参考音频要求 ​

常见问题 ​

1. 双击后闪退怎么办？ ​

2. 生成速度很慢？ ​

3. 第一次启动卡住不动了？ ​

4. 模型下载失败？ ​

5. 报错 Cannot find a function with api_name: /run_voice_clone？ ​