deepgram.com 语音识别api使用 | pyVideoTrans官网-开源免费视频翻译配音软件 pyvideotrans.com pyvideotrans github github.com/jianchang512/pyvideotrans

deepgram.com 语音识别API使用指南

Deepgram是一个提供云端语音识别服务的AI平台。在pyVideoTrans v2.92版本后，我们集成了Deepgram的API，让用户可以利用其强大的语音识别能力将视频中的语音转换为字幕。Deepgram支持多种语言，包括中文，并提供注册即赠200美元免费额度的优惠。

打开pyVideoTrans软件，进入菜单栏的“语音识别设置”，选择“Deepgram”选项。
在配置窗口中：
- API Key：粘贴上一步复制的Deepgram API Key。
- 静默时长：默认值为200毫秒。可根据视频语速调整：
  - 语速较快：适当降低到150毫秒
  - 语速较慢或静音较多：适当提高到500或800毫秒
点击保存按钮完成配置。

Deepgram支持多种语音识别模型，包括：

nova-3：最新模型，识别准确度最高
whisper系列：whisper-large、whisper-medium、whisper-small、whisper-base、whisper-tiny（基于OpenAI的Whisper模型）
nova-2：上一代Nova模型
enhanced：增强版模型
base：基础模型

对于中文识别，建议选择nova-3或whisper-large以获得最佳效果。

高级选项包括：

对于中文视频识别，推荐以下配置：

错误：API Key无效 确保复制的Key正确无误，且没有多余的空格或字符。
错误：识别结果缺少标点符号 这是Deepgram对中文支持的已知问题。请在软件界面中启用“中文重新断句”功能，该功能会使用阿里中文标点恢复模型重新处理字幕。
错误：文件过大无法处理 Deepgram平台对大于50MB的文件会自动重新编码为MP3格式，但如果你遇到问题，可以尝试先压缩视频文件。
错误：网络连接问题 确保网络可以正常访问deepgram.com，必要时配置代理。

通过以上步骤，你就可以在pyVideoTrans中使用Deepgram的语音识别服务了。如有更多问题，请参考Deepgram官方文档或软件帮助中心。