语音识别渠道的功能就是根据视频中的说话声音识别出文字,整理为带有精确时间轴的字幕。
温馨提示: 部分渠道,如 OpenAI、字节火山引擎等,需要您预先设置一下 API 地址或密钥(SK)才能使用。别担心,操作很简单!只需点击软件顶部的 “语音识别设置” 菜单,填入相应信息即可。
目前支持的 15 种语音识别渠道
为了满足不同用户的需求,我们提供了多种选择,涵盖本地离线模型和在线云服务。
点击渠道名字,查看该渠道详细使用方法。
💻 本地离线识别 (无需联网,保护隐私)
这类渠道需要在您第一次使用时下载模型文件到电脑里,之后就可以完全离线运行了。
- faster-whisper (本地模式):一个非常受欢迎的本地识别方案。它以速度快、资源占用低而闻名,同时支持数十种语言的识别,是目前本地识别的优选方案之一。
- openai-whisper (本地模式):来自 OpenAI 官方的开源模型,识别准确率高,支持的语言数量众多。
- 阿里 FunASR (中文识别):阿里巴巴达摩院推出的开源模型,针对中文场景进行了特别优化,因此在识别中文时发音和断句都相当精准。
- faster-whisper-xxl.exe:这是一个专为 Windows 用户设计的超大模型版本,识别效果更好。您需要自行下载
faster-whisper-xxl.exe
文件来配合使用。 - Parakeet-tdt 语音识别:由英伟达(NVIDIA)开源的识别模型。这需要您自行部署服务,然后在软件的设置菜单中填入您的 API 地址。
- STT 语音识别 API:同样是一个需要您自行部署的开源项目,部署完成后将 API 地址填入软件即可使用。
☁️ 在线识别 (云端处理,功能强大)
这类渠道会将音频文件上传到云端服务器进行处理,通常效果出色,但部分服务需要付费或有使用限制。
免费或有免费额度:
- Google 语音识别:由 Google 提供的免费在线识别服务。效果尚可,但在国内使用需要科学上网。
- Elevenlabs.io 语音识别:一家专注于 AI 音频技术的公司提供的服务。您需要前往其官网注册并获取免费的 API Key,免费版额度有限制。
- deepgram.com 语音识别:一家知名的语音识别服务商,以高准确率和快速度著称。 您需要到其官网 deepgram.com 注册并申请 API Key。
- Gemini 大模型识别:Google 推出的强大模型,识别小语种的能力很突出。使用时需要有 Gemini API KEY,但国内使用需科学上网。
- 阿里百炼 Qwen3-ASR:基于阿里巴巴的“通义千问”大模型,您需要前往阿里百炼平台开通服务并创建 API Key。
需要付费或申请 API Key:
- 302.AI 语音识别:访问 302.ai 官网申请 app key 后即可使用。
- 字节火山字幕生成:字节跳动旗下的火山引擎提供的专业语音技术服务。 其中文识别效果非常出色,尤其适合处理带有口音或背景噪音的音频,需要您在火山引擎官网开通服务。
- OpenAI 语音识别:使用 OpenAI 官方提供的 API 进行识别,效果与本地版 Whisper 同样优秀,但需要您拥有 OpenAI 的 API 密钥(SK)。
🔧 高级自定义选项 (适合开发者)
如果您具备一定的技术背景,还可以尝试以下更灵活的方案:
- 自定义语音识别 API:如果您拥有编程能力,可以根据我们提供的数据格式标准,编写完全属于您自己的语音识别 API 接口,实现最大程度的定制化。