v3.96版本后引入了阿里的开源模型 Qwen-ASR
首先你需要自行部署
Qwen-ASR模型,官方开源地址 https://modelscope.cn/models/Qwen/Qwen3-ASR-1.7B启动官方web界面demo
qwen-asr-demo \
--asr-checkpoint Qwen/Qwen3-ASR-1.7B \
--aligner-checkpoint Qwen/Qwen3-ForcedAligner-0.6B \
--backend transformers \
--cuda-visible-devices 0 \
--backend-kwargs '{"device_map":"cuda:0","dtype":"bfloat16","max_inference_batch_size":8,"max_new_tokens":256}' \
--aligner-kwargs '{"device_map":"cuda:0","dtype":"bfloat16"}' \
--ip 0.0.0.0 --port 8000- 将启动后的地址
http://127.0.0.1:8000填入 pyVideoTrans 软件的菜单-语音识别设置-Qwen-ASR(本地)--WebUI URL中
注意:如果你已有其他本地服务占用了8000端口,那么启动会失败,你需要修改上述命令中的端口,例如改为 8001, 同时也需要将填写到pyVideoTrans中的端口对应改为8001
Qwen-ASR(本地)整合包
如果你不会部署和启动命令,也可以下载这个windows版本整合包,
📥 1. 下载与解压
请通过以下方式下载整合包(根据实际发布渠道选择):
- 百度网盘下载: https://pan.baidu.com/s/14RiYX8_L54zT9mr7AuKTFQ?pwd=1234
- Github下载: https://github.com/jianchang512/stt/releases/download/0.0/qwen-asr-0130.7z
⚠️ 重要提示(必看):
- 下载压缩包后,请将其解压到一个没有中文、没有空格的文件夹路径中。
- ✅ 正确示范:
D:\AI\QwenASR - ❌ 错误示范:
C:\Users\张三\Desktop\新建文件夹 (2)
- ✅ 正确示范:
- 解压后的目录结构应包含
models,runtime等文件夹以及两个.bat脚本(如下图所示)。

🛠️ 2. 安装环境与下载模型
首次使用前,必须先执行此步骤来下载必要的组件和模型文件。
- 找到文件:
0解压后立即点此安装运行环境.bat。 - 双击运行它。
- 会出现一个黑色窗口,自动开始下载模型文件和依赖库。
- 注意:根据你的网速,这可能需要几分钟到十几分钟,请耐心等待。
- 当看到提示 “环境安装完成...请开始双击对应启动bat文件” 且没有红色报错时,按任意键关闭窗口。

🚀 3. 启动语音转录
- 找到文件 :
启动语音转录模型.bat。 - 双击运行。
- 程序会进行自检:
- 如果是第一次运行且忘记了第2步,它会弹出提示:“[错误] 未检测到模型文件夹”。
- 如果一切正常,它会显示 “模型检测通过,正在启动...”。
- 等待黑色窗口底部出现类似下面的信息时,代表启动成功:text
* Running on http://127.0.0.1:8000

💻 4. 如何使用
启动成功后,你可以通过以下两种方式使用:
方式一:浏览器网页版 (WebUI)
- 打开浏览器(推荐 Chrome 或 Edge)。
- 在地址栏输入:
http://127.0.0.1:8000 - 你将看到可视化界面:
- Audio Input:点击上传或录制音频。
- Language:默认 Auto(自动识别),也可以指定语言。
- Transcribe:点击开始识别,右侧会显示文字结果。

方式二:配合 pyVideoTrans 视频翻译软件
如果你是视频翻译工具 pyVideoTrans 的用户:
- 保持本黑框窗口开启。
- 打开 pyVideoTrans 软件。
- 进入菜单 “语音识别设置” -> 选择 “Qwen ASR (本地)”。
- 在 WebUI URL 栏中填写:
http://127.0.0.1:8000。
⚙️ 进阶:没有显卡如何使用 CPU 运行?
默认设置是为 NVIDIA 显卡 优化的。如果你没有独立显卡,或者显存不足,想用 CPU(处理器)硬跑(速度会慢很多,但能用),请按以下步骤操作:
右键点击
启动语音转录模型.bat,选择 “编辑” (或用记事本打开)。找到文件底部的这两段代码:
修改前(GPU模式):
batchrem 下面这行命令是 cpu运行命令... (略) rem runtime\python -m qwen_asr.cli.demo ... (这里前面有 rem) rem 下面这行是GPU运行命令... runtime\python -m qwen_asr.cli.demo ... (这里前面没有 rem)修改后(CPU模式):
- 删掉第一段长命令前面的
rem(启用CPU命令)。 - 在第二段长命令前面加上
rem(注释掉GPU命令)。
修改后的样子大致如下:
batchrem 下面这行命令是 cpu运行命令... runtime\python -m qwen_asr.cli.demo ... (注意:rem已被删除,这行生效) rem 下面这行是GPU运行命令... rem runtime\python -m qwen_asr.cli.demo ... (注意:加上了rem,这行失效)- 删掉第一段长命令前面的
保存文件,关闭记事本。
重新双击
启动语音转录模型.bat即可。
❓ 常见问题
- Q: 双击打开一闪而过怎么办?
- A: 路径里可能有中文或空格,或者还没运行第2步的安装环境脚本。
- Q: 网页打不开?
- A: 请检查黑色窗口是否被关闭了,必须保持黑色窗口开启才能访问网页。
- Q: 显存不足报错 (OOM)?
- A: 请尝试参照“进阶”部分切换到 CPU 模式,或者并在 WebUI 中上传较短的音频片段。
