Qwen-ASR 本地模型接入

确保已升级到 v3.97+ 版本

语音识别渠道中选择Qwen-ASR(本地)渠道即可，默认可选 0.6B或1.7B，后者更准确但更耗资源

手动下载方法

第一次使用将在线下载模型,你也可以手动下载

确认软件目录下models文件内是否存在models--Qwen--Qwen3-ASR-0.6B和models--Qwen--Qwen3-ASR-1.7B文件夹，如果不存在则新建
0.6B和1.7B只是尺寸不同，下载和使用方法一样，只不过需要注意不同模型要放在对应的模型文件夹内
下载 1.7B模型，打开网址 https://huggingface.co/Qwen/Qwen3-ASR-1.7B/tree/main 将所有文件下载后放到models/models--Qwen--Qwen3-ASR-1.7B文件夹内。
下载 0.6B模型，打开网址 https://huggingface.co/Qwen/Qwen3-ASR-0.6B/tree/main, 将所有文件下载后放到models/models--Qwen--Qwen3-ASR-0.6B文件夹内
在软件界面中根据需要选择0.6B或1.7B模型

时间轴对齐

Qwen官方默认使用Qwen/Qwen3-ForcedAligner-0.6B模型进行时间轴对齐，只需传入一个完整的长音频即可，但测试发现，这种方式非常消耗显存、速度较慢，并且无法方便的的展示转录进度，对于长音频，需要长时间面对一个毫无变化的界面，容易产生软件卡死的困惑。

因此未使用该模型做对齐，而是在转录之前使用ten-vad 模型预先裁切为短音频片段，然后按照每 8 个小片段批量推理，降低显存占用兼顾推理速度。缺点是：对语速较快停顿不明显的音频或者具有噪声的音频，断句效果可能不如 ForcedAligner。如果你希望使用ForcedAligner对齐，可以源码部署，然后做如下修改

修改软件/videotrans/process/stt_fun.py，将

def qwen3asr_fun(
        cut_audio_list=None,
        ROOT_DIR=None,
        logs_file=None,
        defaulelang="en",
        is_cuda=False,
        audio_file=None,
        TEMP_ROOT=None,
        model_name="1.7B",
        device_index=0 # gpu索引
):

修改为

def qwen3asr_fun_bak(
        cut_audio_list=None,
        ROOT_DIR=None,
        logs_file=None,
        defaulelang="en",
        is_cuda=False,
        audio_file=None,
        TEMP_ROOT=None,
        model_name="1.7B",
        device_index=0 # gpu索引
):

同样是这个stt_fun.py文件，继续将

def qwen3asr_fun0(
        ROOT_DIR=None,
        logs_file=None,
        defaulelang="en",
        is_cuda=False,
        audio_file=None,
        TEMP_ROOT=None,
        model_name="1.7B",
        device_index=0 # gpu索引
):

改为

def qwen3asr_fun(
        ROOT_DIR=None,
        logs_file=None,
        defaulelang="en",
        is_cuda=False,
        audio_file=None,
        TEMP_ROOT=None,
        model_name="1.7B",
        device_index=0 # gpu索引
):

再打开软件目录/videotrans/recognition/_qwenasrlocal.py文件将以下代码前的#符号去掉

#tools.check_and_down_ms('Qwen/Qwen3-ForcedAligner-0.6B',callback=self._process_callback,local_dir=f'{config.ROOT_DIR}/models/models--Qwen--Qwen3-ForcedAligner-0.6B')

#tools.check_and_down_hf(model_id='Qwen3-ForcedAligner-0.6B',repo_id='Qwen/Qwen3-ForcedAligner-0.6B',local_dir=f'{config.ROOT_DIR}/models/models--Qwen--Qwen3-ForcedAligner-0.6B',callback=self._process_callback)

以便自动下载对齐模型，当然你也可以手动下载 https://huggingface.co/Qwen/Qwen3-ForcedAligner-0.6B/tree/main 方法同上述下载方法，所有文件放到models/models--Qwen--Qwen3-ForcedAligner-0.6B文件夹内

仍然是这个 _qwenasrlocal.py 文件

将代码return jsdata#self.segmentation_asr_data(jsdata) 改为return self.segmentation_asr_data(jsdata)

修改完成后重新启动软件

Qwen-ASR 本地模型接入 ​

手动下载方法 ​

时间轴对齐 ​

Qwen-ASR 本地模型接入

手动下载方法

时间轴对齐