Qwen-ASR 本地模型接入
确保已升级到 v3.97+ 版本
语音识别渠道中选择Qwen-ASR(本地)渠道即可,默认可选 0.6B或1.7B,后者更准确但更耗资源
手动下载方法
第一次使用将在线下载模型,你也可以手动下载
- 确认软件目录下
models文件内是否存在models--Qwen--Qwen3-ASR-0.6B和models--Qwen--Qwen3-ASR-1.7B文件夹,如果不存在则新建 0.6B和1.7B只是尺寸不同,下载和使用方法一样,只不过需要注意不同模型要放在对应的模型文件夹内- 下载
1.7B模型,打开网址 https://huggingface.co/Qwen/Qwen3-ASR-1.7B/tree/main 将所有文件下载后放到models/models--Qwen--Qwen3-ASR-1.7B文件夹内。 - 下载
0.6B模型,打开网址 https://huggingface.co/Qwen/Qwen3-ASR-0.6B/tree/main, 将所有文件下载后放到models/models--Qwen--Qwen3-ASR-0.6B文件夹内 - 在软件界面中根据需要选择
0.6B或1.7B模型



时间轴对齐
Qwen官方默认使用Qwen/Qwen3-ForcedAligner-0.6B模型进行时间轴对齐,只需传入一个完整的长音频即可,但测试发现,这种方式非常消耗显存、速度较慢,并且无法方便的的展示转录进度,对于长音频,需要长时间面对一个毫无变化的界面,容易产生软件卡死的困惑。
因此未使用该模型做对齐,而是在转录之前使用ten-vad 模型预先裁切为短音频片段,然后按照每 8 个小片段批量推理,降低显存占用兼顾推理速度。缺点是:对语速较快停顿不明显的音频或者具有噪声的音频,断句效果可能不如 ForcedAligner。 如果你希望使用ForcedAligner对齐,可以源码部署,然后做如下修改
- 修改
软件/videotrans/process/stt_fun.py,将
def qwen3asr_fun(
cut_audio_list=None,
ROOT_DIR=None,
logs_file=None,
defaulelang="en",
is_cuda=False,
audio_file=None,
TEMP_ROOT=None,
model_name="1.7B",
device_index=0 # gpu索引
):修改为
def qwen3asr_fun_bak(
cut_audio_list=None,
ROOT_DIR=None,
logs_file=None,
defaulelang="en",
is_cuda=False,
audio_file=None,
TEMP_ROOT=None,
model_name="1.7B",
device_index=0 # gpu索引
):- 同样是这个
stt_fun.py文件,继续将
def qwen3asr_fun0(
ROOT_DIR=None,
logs_file=None,
defaulelang="en",
is_cuda=False,
audio_file=None,
TEMP_ROOT=None,
model_name="1.7B",
device_index=0 # gpu索引
):改为
def qwen3asr_fun(
ROOT_DIR=None,
logs_file=None,
defaulelang="en",
is_cuda=False,
audio_file=None,
TEMP_ROOT=None,
model_name="1.7B",
device_index=0 # gpu索引
):- 再打开
软件目录/videotrans/recognition/_qwenasrlocal.py文件 将以下代码前的#符号去掉
#tools.check_and_down_ms('Qwen/Qwen3-ForcedAligner-0.6B',callback=self._process_callback,local_dir=f'{config.ROOT_DIR}/models/models--Qwen--Qwen3-ForcedAligner-0.6B')
#tools.check_and_down_hf(model_id='Qwen3-ForcedAligner-0.6B',repo_id='Qwen/Qwen3-ForcedAligner-0.6B',local_dir=f'{config.ROOT_DIR}/models/models--Qwen--Qwen3-ForcedAligner-0.6B',callback=self._process_callback)以便自动下载对齐模型,当然你也可以手动下载 https://huggingface.co/Qwen/Qwen3-ForcedAligner-0.6B/tree/main 方法同上述下载方法,所有文件放到models/models--Qwen--Qwen3-ForcedAligner-0.6B文件夹内
- 仍然是这个
_qwenasrlocal.py文件
将代码return jsdata#self.segmentation_asr_data(jsdata) 改为return self.segmentation_asr_data(jsdata)
- 修改完成后重新启动软件
