语音识别渠道--将语音转录为字幕/文字 | pyVideoTrans官网-开源免费视频翻译配音软件 pyvideotrans.com pyvideotrans github github.com/jianchang512/pyvideotrans

语音识别渠道的功能就是根据视频中的说话声音识别出文字，整理为带有精确时间轴的字幕。

语音识别渠道

温馨提示： 部分渠道，如 OpenAI、字节火山引擎等，需要您预先设置一下 API 地址或密钥（SK）才能使用。别担心，操作很简单！只需点击软件顶部的 “语音识别设置” 菜单，填入相应信息即可。

在“语音识别设置”中配置API密钥等信息

目前支持的十多种语音识别渠道

为了满足不同用户的需求，我们提供了多种选择，涵盖本地离线模型和在线云服务。

点击渠道名字，查看该渠道详细使用方法。

这类渠道需要在您第一次使用时下载模型文件到电脑里，之后就可以完全离线运行了。

faster-whisper (本地)：一个非常受欢迎的本地识别方案。它以速度快、资源占用低而闻名，同时支持数十种语言的识别，是目前本地识别的优选方案之一。
openai-whisper (本地)：来自 OpenAI 官方的开源模型，识别准确率高，支持的语言数量众多。
Qwen3-ASR(本地)：阿里的本地语音识别大模型，中文效果极佳。
阿里 FunASR (中文识别)：阿里巴巴达摩院推出的开源模型，针对中文场景进行了特别优化，因此在识别中文时发音和断句都相当精准。
Huggingface_ASR 语音识别渠道，支持几个来自 huggingface 的模型和nvidia的一个英文模型
faster-whisper-xxl.exe：这是一个专为 Windows 用户设计的超大模型版本，识别效果更好。您需要自行下载 faster-whisper-xxl.exe 文件来配合使用。
whisper.cpp：这是一个使用 whipser.cpp 为后端的识别渠道。您需要自行部署whipser.cpp 文件来配合使用。
Parakeet-tdt 语音识别：由英伟达（NVIDIA）开源的识别模型。这需要您自行部署服务，然后在软件的设置菜单中填入您的 API 地址。
STT 语音识别 API：同样是一个需要您自行部署的开源项目，部署完成后将 API 地址填入软件即可使用。

这类渠道会将音频文件上传到云端服务器进行处理，通常效果出色，但部分服务需要付费或有使用限制。

免费或有免费额度：

阿里百炼 Qwen3-ASR：基于阿里巴巴的“通义千问”大模型，您需要前往阿里百炼平台开通服务并创建 API Key。
Elevenlabs.io 语音识别：一家专注于 AI 音频技术的公司提供的服务。您需要前往其官网注册并获取免费的 API Key，免费版额度有限制。
deepgram.com 语音识别：一家知名的语音识别服务商，以高准确率和快速度著称。您需要到其官网 deepgram.com 注册并申请 API Key。
Gemini 大模型识别：Google 推出的强大模型，识别小语种的能力很突出。使用时需要有 Gemini API KEY，但国内使用需科学上网。
Google 语音识别：由 Google 提供的免费在线识别服务。效果尚可，但在国内使用需要科学上网。

需要付费或申请 API Key：

302.AI 语音识别：访问 302.ai 官网申请 app key 后即可使用。
字节语音识别大模型极速版：字节跳动旗下的语音识别大模型，中文效果极佳。
字节火山字幕生成：同样是字节跳动的语音识别模型，效果较上面这个略低。
OpenAI 语音识别：使用 OpenAI 官方提供的 API 进行识别，效果与本地版 Whisper 同样优秀，但需要您拥有 OpenAI 的 API 密钥（SK）。

如果您具备一定的技术背景，还可以尝试以下更灵活的方案：