Google Colab 上使用 Qwen-TTS
最近 AI 语音圈子里,阿里开源的 Qwen-TTS (Qwen3-TTS) 火得一塌糊涂。它的声音自然度、情感表达以及强大的“声音克隆”能力,让很多人都想上手试一试。
除了本地自行部署,当然也可以白嫖Google的云GPU部署,完全免费、无需本地显卡、无需配置环境,只要你有浏览器,就能在线运行 Qwen-TTS,体验声音克隆的乐趣!
准备工作
在开始之前,你需要准备以下两样东西:
- 一个谷歌账号
- 科学上网魔法(由于 Colab 是谷歌的服务,在中国大陆访问需要科学上网环境)。
搞定这两点,我们马上开始!
第一步:打开“云端电脑”
首先,点击下方链接打开我已经配置好的笔记本:
🔗 复制该地址浏览器中打开 Qwen-TTS 云端笔记本: https://colab.research.google.com/gist/jianchang512/3be479157d50c4ccd2de73c146e80245/qwentts-demo.ipynb
打开后,你会看到类似代码的界面,不要慌,我们只需要点几个按钮。

第二步:开启 GPU 加速
Google Colab 也就是谷歌免费借给我们的一台“云端电脑”。为了运行 AI,我们需要给这台电脑装上“显卡”。
- 在页面右上角(或菜单栏),点击 “连接” 或者 “更改运行时类型”。
- 在弹出的窗口中,硬件加速器 一定要选择 【T4 GPU】。
- 点击保存。

第三步:一键安装环境
设置好显卡后,我们开始安装 Qwen-TTS 需要的软件。
- 找到页面中最上面的代码块,标题是 “# 第一步安装环境”。
- 把鼠标移到代码块左侧,点击出现的 “播放按钮 ▶️”。
系统会自动运行命令,你只需要等待几分钟,直到播放按钮左边出现一个绿色的对勾 ✅,说明安装完成。


第四步:选择模式并启动
环境装好后,向下看,有三个不同的启动选项。注意:这三个命令,每次只能运行一个!

- 1. 使用模型内置音色配音: 适合只想把文字转语音,使用系统自带声音的朋友。
- 2. 使用参考音频进行克隆音色(🔥推荐): 这是最长用的功能,上传一段几秒钟的录音,让 AI 模仿这个声音说话。
- 3. 设计音色: 高级玩法,微调声音特征。
操作方法: 点击你想用的那个功能左边的 “播放按钮 ▶️”。
等待几十秒后,底部的日志里会出现一个以 gradio.live 结尾的链接(例如 Running on public URL: https://xxxx.gradio.live)。

👉 点击这个链接,就会跳转到可视化的操作界面!
(注意:如果你想切换功能,比如从克隆切换到设计,必须先点击当前正在运行的播放按钮让它停止,然后再去点击另一个功能的播放按钮。)
第五步:开始克隆声音
点击链接后,你就进入了 WebUI 界面,操作非常直观:

- Reference Audio (参考音频): 在左侧直接把你想模仿的声音文件(比如 mp3/wav)拖进去。只需要几秒钟清晰的人声即可。
- Target Text (待合成文本): 在中间输入你想让 AI 说的话。
- Generate (生成): 点击蓝色按钮,稍等片刻。
右侧就会出现合成好的音频,你可以直接播放,或者点击下载保存。
常见问题与注意事项
- 断连问题: 谷歌 Colab 免费版有使用时长限制,长时间不操作可能会断开。如果断开了,刷新页面重新从“第一步”开始运行即可。
- 网络问题: 整个过程(包括打开链接、运行代码、点击生成的 URL)都需要保持全程科学上网。
- 报错了怎么办? 如果遇到莫名其妙的报错,尝试点击菜单栏的“运行时” -> “断开会话连接并删除运行时”,然后重新按步骤操作一遍。
