Skip to content

Google Gemini通常更多的用来聊天、翻译、询问各种帮助等,但你可能不知道,它也可以用来做语音识别,比如将音频或视频转为字幕文件,而且效果还不错。

Google Gemini 在线免费使用地址 https://aistudio.google.com/app/prompts

众所周知你需要魔法才可登陆该地址,而且某些国家的ip即便能打开,也不在Gemini的访问范围,如果提示当前国家不在服务范围,请切换到其他国家节点

在浏览器中使用

如下图,先加一行提示词,对输出结果添加一些限制,比如需要返回srt字幕格式,每条字幕最大时长,繁体转为简体,甚至可以要求将转录结果同时翻译为其他语言等,然后上传音视频,注意不要太大,否则可能超出token限制而失败。

image.png

然后点击Run,很快会有结果,效率挺高。

image.png

效果甚至好过 whisper-large-v2模型,值得使用。

在视频翻译配音软件中使用

首先请升级到 v3.07 补丁包版本

  1. 首先在 菜单栏--翻译设置--Gemini pro 中填写你的 Key、所使用的模型,并可在此修改转录时的提示词

image.png

  1. 代理/vpn莫要忘记,否则必然出错

image.png

  1. 在语音识别渠道中选择Gemini大模型识别,上传音视频,选择发音语言,莫要选中中文重新断句,Gemini本身的断句效果就不错,选中后反而结果可能更差。

image.png

  1. 静待识别结果即可。如果不满意,可以调整提示词重新修改。

image.png