FunASR中文识别 | pyVideoTrans官网-开源免费视频翻译配音软件 pyvideotrans.com pyvideotrans github github.com/jianchang512/pyvideotrans

什么是 FunASR 中文识别？

FunASR 是阿里巴巴达摩院开源的一套端到端语音识别模型，在中文语音识别场景下效果显著优于 whisper 系列模型。它基于 Sound-Stream 框架和大规模中文数据训练，对中文发音、方言口音、噪声环境等场景有很强的适应能力。

视频翻译软件中已集成 FunASR 作为 语音识别（ASR） 渠道之一，直接在软件中选择即可使用，无需额外部署外部服务。

前提条件

视频翻译软件版本 >= v2.97（早期版本需要手动部署 zh_recogn 或 SenseVoice 服务）
推荐使用 NVIDIA GPU：FunASR 模型在 CUDA 加速下运行速度最快；纯 CPU 也可运行但速度较慢
首次使用会自动从 modelscope.cn（国内模型托管平台）下载模型，需要网络连接
模型下载后会保存在软件目录下的 models/hub/ 文件夹中，后续使用无需重复下载

模型选择指南

在语音识别中选择 FunASR中文识别 后，会出现多个模型选项：

模型名称	适用场景	说明
paraformer-zh	中文识别（推荐）	效果和速度均为最佳，支持热词功能
SenseVoiceSmall	中文识别	轻量级模型，速度较快但精度略低于 paraformer
Fun-ASR-Nano-2512	中/英/日/粤语	适合混合语言或小语种场景
Fun-ASR-MLT-Nano-2512	其他语言	适合英语、日语以外的其他语言

建议：如果你的视频主要是中文内容，优先选择 paraformer-zh，识别效果和速度都是最优的。

各模型详细说明

paraformer-zh（推荐）

这是 FunASR 中最经典的中文识别模型，基于 paraformer 架构，首次使用时会自动下载以下 4 个模型组件：

ASR 模型：speech_seaco_paraformer_large_asr_nat-zh-cn-16k-common-vocab8404 — 核心语音识别模型
VAD 模型：speech_fsmn_vad_zh-cn-16k-common — 语音端点检测，自动切分音频
标点模型：punc_ct-transformer_zh-cn-common-vocab272727 — 自动添加标点符号（所有模型都会下载此模型）
说话人验证：speech_campplus_sv_zh-cn_16k-common — 说话人特征提取

所有模型均来自 modelscope.cn，下载过程会显示进度，耐心等待即可。

SenseVoiceSmall

由阿里通义语音团队开发的轻量级多语言模型，首次使用时下载 iic/SenseVoiceSmall 模型。体积比 paraformer-zh 小，适合对速度要求较高但对精度要求不那么严格的场景。

Fun-ASR-Nano-2512

轻量级多语言模型，支持 中文、英文、日语、粤语 四种语言的识别。适合处理混合语言内容的视频。

Fun-ASR-MLT-Nano-2512

多语言扩展模型，支持除上述四种语言之外的 其他语言 识别。如果你的视频包含英语、日语以外的语言（如韩语、法语等），可以选择此模型。

使用步骤

第一步：选择识别渠道

在软件的 语音识别 设置中，选择 FunASR中文识别。

第二步：选择模型

根据你的视频语言选择合适的模型。中文视频选择 paraformer-zh。

第三步：等待模型下载（首次使用）

第一次使用某个模型时，软件会自动从 modelscope.cn 下载所需模型文件。下载过程会在软件界面显示进度。

模型保存位置：软件目录下的 models/hub/ 文件夹
下载时间：根据网络速度，可能需要几分钟到几十分钟
下载完成后，后续使用无需重复下载

第四步：开始识别

模型下载完成后，直接点击开始，软件会自动进行语音识别。

配置建议（最佳实践）

使用 GPU 加速：确保系统已安装 CUDA，FunASR 会自动使用 GPU 加速，识别速度可提升数倍
选择正确的模型：
- 中文视频 → paraformer-zh（最佳效果）
- 中英混合 → paraformer-zh（已支持混合识别）
- 纯英文 → 建议使用 whisper 或 faster-whisper 系列
- 日语 → Fun-ASR-Nano-2512 或 Fun-ASR-MLT-Nano-2512
利用热词功能：paraformer-zh 支持热词设置，可以在软件中设置专业术语、人名等热词，提升识别准确率
首次使用预留时间：第一次使用某个模型需要下载，请确保网络畅通，耐心等待下载完成

常见错误与排查

下载失败或下载卡住

原因：网络连接 modelscope.cn 不稳定
解决：检查网络连接，尝试重启软件重新下载。如果持续失败，可以手动从 modelscope.cn 下载对应模型文件，放入 models/hub/ 目录

识别结果为空或乱码

原因：模型选择不匹配音频语言
解决：确认选择了与视频语言匹配的模型（中文视频选 paraformer-zh）

识别速度很慢

原因：使用 CPU 运行或未启用 GPU 加速
解决：检查是否安装了 CUDA 和对应版本的 PyTorch，确保 GPU 可用

提示模型文件缺失

原因：模型文件不完整或损坏
解决：删除 models/hub/ 下对应模型的文件夹，重新启动软件让其重新下载

标点符号缺失

注意：标点模型（punc_ct-transformer_zh-cn-common-vocab272727）在选择任何 FunASR 模型时都会自动下载，如果标点效果不佳，请确认该模型已完整下载

什么是 FunASR 中文识别？ ​

前提条件 ​

模型选择指南 ​

各模型详细说明 ​

paraformer-zh（推荐） ​

SenseVoiceSmall ​

Fun-ASR-Nano-2512 ​

Fun-ASR-MLT-Nano-2512 ​

使用步骤 ​

第一步：选择识别渠道 ​

第二步：选择模型 ​

第三步：等待模型下载（首次使用） ​

第四步：开始识别 ​

配置建议（最佳实践） ​

常见错误与排查 ​

下载失败或下载卡住 ​

识别结果为空或乱码 ​

识别速度很慢 ​

提示模型文件缺失 ​

标点符号缺失 ​

所有模型下载地址 ​