最近微软发布的 VibeVoice-ASR 语音识别模型效果非常惊艳,自带说话人识别。但官方原版对硬件要求极高(需要20G+显存,基本上要 RTX 3090/4090 才能跑),而且配置复杂,让很多想尝鲜的朋友望而却步。
为了更容易使用,简单做了一点修改,以便在低显存设备上运行!
- 超低门槛:显存占用降低 70%,普通 12G/14G 显存即可运行。
- 云端白嫖:电脑配置不够?没关系!提供 Google Colab 脚本,免费在云端运行。
- 集成到pyVideoTrans:视频翻译配音软件 v3.95+ 版本已原生支持。
第一步:准备工作
- 升级软件:请确保你的
pyVideoTrans已经更新到 v3.95 或更高版本,如果已是,仍建议再次下载补丁包覆盖。(这是硬性要求,旧版本不支持哦)。 - 获取模型运行地址:你可以选择云端运行(推荐,免费且无需配置电脑)或本地运行(本地建议使用MacOSX或Linux,win下未测试)。
第二步:启动 VibeVoice 模型
方案 A:Google Colab 云端运行
只要你能访问 Google,推荐使用此方法,不用消耗自己电脑的性能。
打开运行脚本:下方是笔记本链接: 👉 VibeVoice Colab 一键运行脚本 (
https://colab.research.google.com/drive/1FnsoTQsH9iTWpuJVY_T-0ZO-E91C74it?usp=sharing)修改运行时类型(关键步骤):
- 点击右上角的 “连接” 按钮右侧的小三角。
- 选择 “更改运行时类型”。
- 在硬件加速器中选中
T4 GPU,然后点击保存。
一键运行:
- 点击菜单栏下方的 “全部运行” 按钮(或者按
Ctrl+F9)。 - 脚本会自动安装环境和下载模型,请耐心等待几分钟。
- 点击菜单栏下方的 “全部运行” 按钮(或者按

- 获取 API 地址:
- 当页面最底部显示
Running on public URL: https://xxxx.gradio.live时,表示启动成功。 - 复制这个以
.gradio.live结尾的网址,这就是我们需要填入软件的地址。
- 当页面最底部显示

方案 B:本地部署(适合 Linux/Mac 高手)
如果你是 Linux/Mac 用户且显存在10G以上,可以参考 https://github.com/jianchang512/VibeVoice/blob/main/docs/vibevoice-asr.md 自行部署。启动命令为: python demo/vibevoice_asr_gradio_demo.py --model_path microsoft/VibeVoice-ASR --attn_implementation sdpa --share
启动后默认地址通常为 http://127.0.0.1:7860。
Win10/11 理论上也应该可以,不过因显存不足未测试
第三步:在 pyVideoTrans 中配置
拿到 API 地址后,回到我们的翻译软件中进行简单的设置。
打开
pyVideoTrans软件。在顶部菜单栏找到 “语音识别设置(R)” -> 选择 “自定义语音识别API”。
填写配置信息(看图操作):
- API 地址:粘贴刚才在 Colab 中复制的
https://xxxx.gradio.live地址(或者是本地的 http://127.0.0.1:7860)。 - 密钥密码:这里有一个特殊暗号!你可以在这里随便填字符,但必须包含
vibevoice-asr这段文字。- 正确示范:
my-vibevoice-asr-key或test-vibevoice-asr - 错误示范:
123456(软件无法识别这是 VibeVoice 接口)
- 正确示范:
- API 地址:粘贴刚才在 Colab 中复制的

- 点击 “测试” 按钮。如果提示“连接成功”或返回了测试数据,点击 “保存修改”。
第四步:开始使用
现在,你已经拥有了目前最强梯队的语音识别能力!
- 在软件主界面,导入你要处理的视频或音频。
- 在 “选择语音识别模型” 的下拉菜单中,选择 “自定义语音识别API”。
- 点击开始运行,软件就会自动通过云端的 VibeVoice 模型为你生成精准的字幕啦!
常见问题 (Q&A)
Q: Colab 运行报错或者断开了怎么办? A: Colab 的免费 GPU 有使用时长限制,如果断开,请重新刷新网页,重复“全部运行”的步骤,并获取新的 .gradio.live 链接填入软件。
Q: 识别速度快吗? A: VibeVoice 的速度非常快,且经过我们的量化优化,在 T4 GPU 上也能实现接近实时的转录速度。不过软件是整个音频发送转录,完毕后再整个显示,并未实现流式。
Q: 为什么我测试时提示错误? A: 请检查两点:1. API 地址后面不要多复制空格;2. 密钥里是否包含了 vibevoice-asr 这个关键词。
本项目修改版仓库地址:https://github.com/jianchang512/VibeVoice
