Skip to content

Google Colab 上使用 Qwen-TTS

最近 AI 语音圈子里,阿里开源的 Qwen-TTS (Qwen3-TTS) 火得一塌糊涂。它的声音自然度、情感表达以及强大的“声音克隆”能力,让很多人都想上手试一试。

除了本地自行部署,当然也可以白嫖Google的云GPU部署,完全免费、无需本地显卡、无需配置环境,只要你有浏览器,就能在线运行 Qwen-TTS,体验声音克隆的乐趣!


准备工作

在开始之前,你需要准备以下两样东西:

  1. 一个谷歌账号
  2. 科学上网魔法(由于 Colab 是谷歌的服务,在中国大陆访问需要科学上网环境)。

搞定这两点,我们马上开始!


第一步:打开“云端电脑”

首先,点击下方链接打开我已经配置好的笔记本:

🔗 复制该地址浏览器中打开 Qwen-TTS 云端笔记本: https://colab.research.google.com/gist/jianchang512/3be479157d50c4ccd2de73c146e80245/qwentts-demo.ipynb

打开后,你会看到类似代码的界面,不要慌,我们只需要点几个按钮。


第二步:开启 GPU 加速

Google Colab 也就是谷歌免费借给我们的一台“云端电脑”。为了运行 AI,我们需要给这台电脑装上“显卡”。

  1. 在页面右上角(或菜单栏),点击 “连接” 或者 “更改运行时类型”
  2. 在弹出的窗口中,硬件加速器 一定要选择 【T4 GPU】
  3. 点击保存。


第三步:一键安装环境

设置好显卡后,我们开始安装 Qwen-TTS 需要的软件。

  1. 找到页面中最上面的代码块,标题是 “# 第一步安装环境”
  2. 把鼠标移到代码块左侧,点击出现的 “播放按钮 ▶️”

系统会自动运行命令,你只需要等待几分钟,直到播放按钮左边出现一个绿色的对勾 ✅,说明安装完成。


第四步:选择模式并启动

环境装好后,向下看,有三个不同的启动选项。注意:这三个命令,每次只能运行一个!

  • 1. 使用模型内置音色配音: 适合只想把文字转语音,使用系统自带声音的朋友。
  • 2. 使用参考音频进行克隆音色(🔥推荐): 这是最长用的功能,上传一段几秒钟的录音,让 AI 模仿这个声音说话。
  • 3. 设计音色: 高级玩法,微调声音特征。

操作方法: 点击你想用的那个功能左边的 “播放按钮 ▶️”

等待几十秒后,底部的日志里会出现一个以 gradio.live 结尾的链接(例如 Running on public URL: https://xxxx.gradio.live)。

👉 点击这个链接,就会跳转到可视化的操作界面!

(注意:如果你想切换功能,比如从克隆切换到设计,必须先点击当前正在运行的播放按钮让它停止,然后再去点击另一个功能的播放按钮。)


第五步:开始克隆声音

点击链接后,你就进入了 WebUI 界面,操作非常直观:

  1. Reference Audio (参考音频): 在左侧直接把你想模仿的声音文件(比如 mp3/wav)拖进去。只需要几秒钟清晰的人声即可。
  2. Target Text (待合成文本): 在中间输入你想让 AI 说的话。
  3. Generate (生成): 点击蓝色按钮,稍等片刻。

右侧就会出现合成好的音频,你可以直接播放,或者点击下载保存。


常见问题与注意事项

  1. 断连问题: 谷歌 Colab 免费版有使用时长限制,长时间不操作可能会断开。如果断开了,刷新页面重新从“第一步”开始运行即可。
  2. 网络问题: 整个过程(包括打开链接、运行代码、点击生成的 URL)都需要保持全程科学上网。
  3. 报错了怎么办? 如果遇到莫名其妙的报错,尝试点击菜单栏的“运行时” -> “断开会话连接并删除运行时”,然后重新按步骤操作一遍。