Google Gemini通常更多的用来聊天、翻译、询问各种帮助等,但你可能不知道,它也可以用来做语音识别,比如将音频或视频转为字幕文件,而且效果还不错。
Google Gemini 在线免费使用地址 https://aistudio.google.com/app/prompts
众所周知你需要魔法才可登陆该地址,而且某些国家的ip即便能打开,也不在Gemini的访问范围,如果提示当前国家不在服务范围,请切换到其他国家节点
在浏览器中使用
如下图,先加一行提示词,对输出结果添加一些限制,比如需要返回srt字幕格式,每条字幕最大时长,繁体转为简体,甚至可以要求将转录结果同时翻译为其他语言等,然后上传音视频,注意不要太大,否则可能超出token限制而失败。
然后点击Run
,很快会有结果,效率挺高。
效果甚至好过 whisper-large-v2模型,值得使用。
在视频翻译配音软件中使用
首先请升级到 v3.07 补丁包版本
- 首先在 菜单栏--翻译设置--Gemini pro 中填写你的 Key、所使用的模型,并可在此修改转录时的提示词
- 代理/vpn莫要忘记,否则必然出错
- 在语音识别渠道中选择
Gemini大模型识别
,上传音视频,选择发音语言,莫要选中中文重新断句
,Gemini本身的断句效果就不错,选中后反而结果可能更差。
- 静待识别结果即可。如果不满意,可以调整提示词重新修改。