Gemini AI 进行语音识别 | pyVideoTrans官网-开源免费视频翻译配音软件 pyvideotrans.com pyvideotrans github github.com/jianchang512/pyvideotrans

Gemini AI 不仅是一款出色的聊天大模型，更是一款优秀的语音识别和音视频转文字工具。它每天提供超过 1500 次的免费调用额度，基本可以满足日常使用需求。

如何开通 Gemini AI 服务

首先，你需要访问 Gemini AI 的在线 Studio 页面：https://aistudio.google.com/。不妨试试看是否能够打开。

科学上网是前提： 这或许是使用 Gemini AI 的唯一门槛。有时，即便你已经使用了科学上网，打开上述网址仍然可能会出现“不支持的国家或地区”的提示。

这时，你需要尝试切换 VPN 节点，直到页面能够正确显示如下所示的界面：

获取 API Key： 在上图所示的页面左上角，你会看到一个 Get API Key 按钮。点击它，然后创建一个新的密钥。
粘贴 API Key： 将你获取的 API Key 粘贴到 pyVideoTrans 软件中。具体操作是打开软件的设置菜单，找到 “Gemini Pro Gemini Key”选项，将密钥粘贴进去。

在视频翻译配音软件中使用

首先请升级到 v3.07 补丁包版本

首先在菜单栏--翻译设置--Gemini pro 中填写你的 Key、所使用的模型，并可在此修改转录时的提示词

代理/vpn莫要忘记，否则必然出错

在语音识别渠道中选择Gemini大模型识别,上传音视频，选择发音语言，莫要选中中文重新断句，Gemini本身的断句效果就不错，选中后反而结果可能更差。

静待识别结果即可。如果不满意，可以调整提示词重新修改。