Skip to content

v3.96版本后引入了阿里的开源模型 Qwen-ASR

  1. 首先你需要自行部署Qwen-ASR模型,官方开源地址 https://modelscope.cn/models/Qwen/Qwen3-ASR-1.7B

  2. 启动官方web界面demo

qwen-asr-demo \
  --asr-checkpoint Qwen/Qwen3-ASR-1.7B \
  --aligner-checkpoint Qwen/Qwen3-ForcedAligner-0.6B \
  --backend transformers \
  --cuda-visible-devices 0 \
  --backend-kwargs '{"device_map":"cuda:0","dtype":"bfloat16","max_inference_batch_size":8,"max_new_tokens":256}' \
  --aligner-kwargs '{"device_map":"cuda:0","dtype":"bfloat16"}' \
  --ip 0.0.0.0 --port 8000
  1. 将启动后的地址 http://127.0.0.1:8000 填入 pyVideoTrans 软件的菜单-语音识别设置-Qwen-ASR(本地)--WebUI URL中

注意:如果你已有其他本地服务占用了8000端口,那么启动会失败,你需要修改上述命令中的端口,例如改为 8001, 同时也需要将填写到pyVideoTrans中的端口对应改为8001

Qwen-ASR(本地)整合包

如果你不会部署和启动命令,也可以下载这个windows版本整合包,

📥 1. 下载与解压

请通过以下方式下载整合包(根据实际发布渠道选择):

⚠️ 重要提示(必看):

  1. 下载压缩包后,请将其解压到一个没有中文、没有空格的文件夹路径中。
    • ✅ 正确示范:D:\AI\QwenASR
    • ❌ 错误示范:C:\Users\张三\Desktop\新建文件夹 (2)
  2. 解压后的目录结构应包含 models, runtime 等文件夹以及两个 .bat 脚本(如下图所示)。


🛠️ 2. 安装环境与下载模型

首次使用前,必须先执行此步骤来下载必要的组件和模型文件。

  1. 找到文件:0解压后立即点此安装运行环境.bat
  2. 双击运行它。
  3. 会出现一个黑色窗口,自动开始下载模型文件和依赖库。
    • 注意:根据你的网速,这可能需要几分钟到十几分钟,请耐心等待。
  4. 当看到提示 “环境安装完成...请开始双击对应启动bat文件” 且没有红色报错时,按任意键关闭窗口。

🚀 3. 启动语音转录

  1. 找到文件 :启动语音转录模型.bat
  2. 双击运行。
  3. 程序会进行自检:
    • 如果是第一次运行且忘记了第2步,它会弹出提示:“[错误] 未检测到模型文件夹”。
    • 如果一切正常,它会显示 “模型检测通过,正在启动...”
  4. 等待黑色窗口底部出现类似下面的信息时,代表启动成功:
    text
    * Running on http://127.0.0.1:8000


💻 4. 如何使用

启动成功后,你可以通过以下两种方式使用:

方式一:浏览器网页版 (WebUI)

  1. 打开浏览器(推荐 Chrome 或 Edge)。
  2. 在地址栏输入:http://127.0.0.1:8000
  3. 你将看到可视化界面:
    • Audio Input:点击上传或录制音频。
    • Language:默认 Auto(自动识别),也可以指定语言。
    • Transcribe:点击开始识别,右侧会显示文字结果。

方式二:配合 pyVideoTrans 视频翻译软件

如果你是视频翻译工具 pyVideoTrans 的用户:

  1. 保持本黑框窗口开启。
  2. 打开 pyVideoTrans 软件。
  3. 进入菜单 “语音识别设置” -> 选择 “Qwen ASR (本地)”
  4. WebUI URL 栏中填写:http://127.0.0.1:8000

⚙️ 进阶:没有显卡如何使用 CPU 运行?

默认设置是为 NVIDIA 显卡 优化的。如果你没有独立显卡,或者显存不足,想用 CPU(处理器)硬跑(速度会慢很多,但能用),请按以下步骤操作:

  1. 右键点击 启动语音转录模型.bat,选择 “编辑” (或用记事本打开)。

  2. 找到文件底部的这两段代码:

    修改前(GPU模式):

    batch
    rem 下面这行命令是 cpu运行命令... (略)
    rem runtime\python -m qwen_asr.cli.demo ... (这里前面有 rem)
    
    rem 下面这行是GPU运行命令...
    runtime\python -m qwen_asr.cli.demo ... (这里前面没有 rem)

    修改后(CPU模式):

    • 删掉第一段长命令前面的 rem (启用CPU命令)。
    • 在第二段长命令前面加上 rem (注释掉GPU命令)。

    修改后的样子大致如下:

    batch
    rem 下面这行命令是 cpu运行命令...
    runtime\python -m qwen_asr.cli.demo ... (注意:rem已被删除,这行生效)
    
    rem 下面这行是GPU运行命令...
    rem runtime\python -m qwen_asr.cli.demo ... (注意:加上了rem,这行失效)
  3. 保存文件,关闭记事本。

  4. 重新双击 启动语音转录模型.bat 即可。


❓ 常见问题

  • Q: 双击打开一闪而过怎么办?
    • A: 路径里可能有中文或空格,或者还没运行第2步的安装环境脚本。
  • Q: 网页打不开?
    • A: 请检查黑色窗口是否被关闭了,必须保持黑色窗口开启才能访问网页。
  • Q: 显存不足报错 (OOM)?
    • A: 请尝试参照“进阶”部分切换到 CPU 模式,或者并在 WebUI 中上传较短的音频片段。