小红书开源的语音识别模型使用与整合包下载 | pyVideoTrans官网-开源免费视频翻译配音软件 pyvideotrans.com pyvideotrans github github.com/jianchang512/pyvideotrans

小红书开源了一款名为 FireRedASR 的语音自动识别项目，它在中文语音识别方面表现出色。此前，他们只开源了一个较小的 AED 模型。最近，他们又发布了一个更大的 LLM 模型，识别准确率得到了进一步提升。

这款 ASR 模型已经集成到整合包中，可以在视频翻译软件(pyVideoTrans)中方便地使用。

整合包下载及模型说明

模型体积：

AED 模型 (model.pth.tar)： 4.35GB
LLM 模型： 包含两个模型
- 小红书识别模型 (model.pth.tar)：3.37GB
- Qwen2-7B 模型 (4个文件)：合计 17GB

模型总计约 21GB。即使压缩成 7z 格式，体积仍然超过 10GB。体积限制无法上传到GitHub或网盘，因此整合包中仅包含程序主体，不包含任何模型文件。

请您下载整合包后，按照以下步骤单独下载模型文件，并将其放入指定位置。

注意： 模型文件托管在 huggingface.co 网站上，该网站在国内无法直接访问，您需要魔法上网才能下载。

整合包主体下载

整合包主体体积相对较小，1.7G。您可以在浏览器中直接打开以下地址下载：

https://github.com/jianchang512/fireredasr-ui/releases/download/v0.3/fireredASR-2025-0224.7z

下载完成后，解压压缩包，您应该看到类似下图的文件结构：

下载 AED 模型

AED 模型的下载比较简单，只需下载一个模型文件。

下载 model.pth.tar 文件。
下载地址：
https://huggingface.co/FireRedTeam/FireRedASR-AED-L/resolve/main/model.pth.tar?download=true
将下载的 model.pth.tar 文件放入整合包目录下的 pretrained_models/FireRedASR-AED-L 文件夹内。

下载完成后，文件存放位置示例如下：

下载 LLM 模型

LLM 模型的下载稍微复杂一些，需要下载共 5 个文件（1个小红书模型 + 4个 Qwen2 模型）。

1. 下载小红书模型 (model.pth.tar):

下载地址： https://huggingface.co/FireRedTeam/FireRedASR-LLM-L/resolve/main/model.pth.tar?download=true
将下载的 model.pth.tar 文件放入整合包的 pretrained_models/FireRedASR-LLM-L 文件夹内。请务必注意文件夹名称中包含 LLM，不要放错位置。

文件存放位置示例如下：

2. 下载 Qwen2 模型 (4个文件):

将以下 4 个链接 中的文件分别下载，并放入整合包的 pretrained_models/FireRedASR-LLM-L/Qwen2-7B-Instruct 文件夹内。

下载完成后，Qwen2-7B-Instruct 文件夹内应包含 4 个文件，如下图所示：

启动整合包

当所有模型文件下载完成并正确放置后，双击运行整合包目录下的 启动.bat 文件即可启动程序。

程序启动后，会自动在浏览器中打开地址 http://127.0.0.1:5078。如果看到如下界面，则表示程序已成功启动，可以开始使用了。

在视频翻译软件中使用

如果您想在视频翻译软件 pyVideoTrans 中使用 FireRedASR 模型，请按照以下步骤操作：

确保您已按照上述说明下载并放置了模型文件，并已成功启动整合包。
打开 pyVideoTrans 软件。
在软件菜单中，依次选择菜单 -> 语音识别设置 -> OpenAI语音识别及兼容AI。
在设置界面中，按照下图所示填写相关信息。
填写完成后，点击保存。
在语音识别渠道选择中，选择 OpenAI语音识别。

API 地址:

默认地址: http://127.0.0.1:5078/v1

OpenAI SDK中使用

from openai import OpenAI
client = OpenAI(api_key='123456',
    base_url='http://127.0.0.1:5078/v1')

audio_file = open("5.wav", "rb")
transcript = client.audio.transcriptions.create(
  model="whisper-1",
  file=audio_file,
  response_format="json",
  timeout=86400
)

print(transcript.text)

整合包下载及模型说明 ​

整合包主体下载 ​

下载 AED 模型 ​

下载 LLM 模型 ​

启动整合包 ​

在视频翻译软件中使用 ​