vibevoice-asr语音识别使用 | pyVideoTrans官网-开源免费视频翻译配音软件 pyvideotrans.com pyvideotrans github github.com/jianchang512/pyvideotrans

最近微软发布的 VibeVoice-ASR 语音识别模型效果非常惊艳，自带说话人识别。但官方原版对硬件要求极高（需要20G+显存，基本上要 RTX 3090/4090 才能跑），而且配置复杂，让很多想尝鲜的朋友望而却步。

为了更容易使用，简单做了一点修改，以便在低显存设备上运行！

超低门槛：显存占用降低 70%，普通 12G/14G 显存即可运行。
云端白嫖：电脑配置不够？没关系！提供 Google Colab 脚本，免费在云端运行。
集成到pyVideoTrans：视频翻译配音软件 v3.95+ 版本已原生支持。

第一步：准备工作

升级软件：请确保你的 pyVideoTrans 已经更新到 v3.95 或更高版本,如果已是，仍建议再次下载补丁包覆盖。（这是硬性要求，旧版本不支持哦）。
获取模型运行地址：你可以选择云端运行（推荐，免费且无需配置电脑）或本地运行(本地建议使用MacOSX或Linux，win下未测试)。

第二步：启动 VibeVoice 模型

方案 A：Google Colab 云端运行

只要你能访问 Google，推荐使用此方法，不用消耗自己电脑的性能。

打开运行脚本：下方是笔记本链接： 👉 VibeVoice Colab 一键运行脚本 ( https://colab.research.google.com/drive/1FnsoTQsH9iTWpuJVY_T-0ZO-E91C74it?usp=sharing )
修改运行时类型（关键步骤）：
- 点击右上角的 “连接” 按钮右侧的小三角。
- 选择 “更改运行时类型”。
- 在硬件加速器中选中 T4 GPU，然后点击保存。
一键运行：
- 点击菜单栏下方的 “全部运行” 按钮（或者按 Ctrl+F9）。
- 脚本会自动安装环境和下载模型，请耐心等待几分钟。

获取 API 地址：
- 当页面最底部显示 Running on public URL: https://xxxx.gradio.live 时，表示启动成功。
- 复制这个以 .gradio.live 结尾的网址，这就是我们需要填入软件的地址。

方案 B：本地部署（适合 Linux/Mac 高手）

如果你是 Linux/Mac 用户且显存在10G以上，可以参考 https://github.com/jianchang512/VibeVoice/blob/main/docs/vibevoice-asr.md 自行部署。启动命令为： python demo/vibevoice_asr_gradio_demo.py --model_path microsoft/VibeVoice-ASR --attn_implementation sdpa --share

启动后默认地址通常为 http://127.0.0.1:7860。

Win10/11 理论上也应该可以，不过因显存不足未测试

第三步：在 pyVideoTrans 中配置

拿到 API 地址后，回到我们的翻译软件中进行简单的设置。

打开 pyVideoTrans 软件。
在顶部菜单栏找到 “语音识别设置(R)” -> 选择 “自定义语音识别API”。
填写配置信息（看图操作）：
- API 地址：粘贴刚才在 Colab 中复制的 https://xxxx.gradio.live 地址（或者是本地的 http://127.0.0.1:7860）。
- 密钥密码：这里有一个特殊暗号！你可以在这里随便填字符，但必须包含 vibevoice-asr 这段文字。
  - 正确示范：my-vibevoice-asr-key 或 test-vibevoice-asr
  - 错误示范：123456 (软件无法识别这是 VibeVoice 接口)

点击 “测试” 按钮。如果提示“连接成功”或返回了测试数据，点击 “保存修改”。

第四步：开始使用

现在，你已经拥有了目前最强梯队的语音识别能力！

在软件主界面，导入你要处理的视频或音频。
在 “选择语音识别模型” 的下拉菜单中，选择 “自定义语音识别API”。
点击开始运行，软件就会自动通过云端的 VibeVoice 模型为你生成精准的字幕啦！

常见问题 (Q&A)

Q: Colab 运行报错或者断开了怎么办？ A: Colab 的免费 GPU 有使用时长限制，如果断开，请重新刷新网页，重复“全部运行”的步骤，并获取新的 .gradio.live 链接填入软件。

Q: 识别速度快吗？ A: VibeVoice 的速度非常快，且经过我们的量化优化，在 T4 GPU 上也能实现接近实时的转录速度。不过软件是整个音频发送转录，完毕后再整个显示，并未实现流式。

Q: 为什么我测试时提示错误？ A: 请检查两点：1. API 地址后面不要多复制空格；2. 密钥里是否包含了 vibevoice-asr 这个关键词。

本项目修改版仓库地址：https://github.com/jianchang512/VibeVoice

第一步：准备工作 ​

第二步：启动 VibeVoice 模型 ​

方案 A：Google Colab 云端运行 ​

方案 B：本地部署（适合 Linux/Mac 高手） ​

第三步：在 pyVideoTrans 中配置 ​

第四步：开始使用 ​