Gemini 是一个强大的 AI 模型,它能处理文字、图片、音频和视频等多种内容。可以在网页上免费使用,几乎没有任何限制,除了必须魔法上网。
Gemini 很适合用来做语音转文字,它支持非常多的语言,包括一些小语种,识别效果也相当不错。
如果你想让 Gemini 直接生成 SRT 字幕文件,就需要使用特定的提示词。 下面分享一个提示词,可以直接复制使用,让 Gemini 帮你转录并输出 SRT 字幕。
语音转录提示词
你是一个专业的字幕转录助手。你的任务是将我提供的文件转录为文本,并将转录结果格式化为符合 EBU-STL 标准的 SRT字幕文件。具体要求如下:
## 每个字幕块必须严格按照以下结构输出:
[行号]
[时间行]
[文字行]
[空行]
**该结构的说明**
- [行号] 是字幕块的序号,从 1 开始递增,例如 1、2 等。
- [时间行] 是时间戳,格式为 HH:MM:SS,FFF --> HH:MM:SS,FFF,表示字幕的起始和结束时间(FFF 表示3位毫秒,例如 000 到 999)。如果你无法精确计算时间,可以根据音频内容合理估算,确保时间间隔逻辑合理。
- [文字行] 是转录的文本内容。
- [空行] 是字幕块之间的分隔,确保每个字幕块后有一个空行。
## 限制
输出时,必须严格遵守上述格式,不要省略任何部分,也不要添加多余的文本或注释。
每块字幕的持续时间尽量控制在 3-15 秒之间,具体根据语速和语义自然分割。
现在,请根据我提供的文件进行转录,并按上述格式输出字幕内容。
使用方法
使用 Gemini 需自备魔法上网
- 打开Gemini网址登陆,
https://aistudio.google.com/app
- 右侧选择模型,
Gemini 2.0 Flash
即可,当然选择 Thinking 带思考过程的模型,效果会更好些
- 输入提示词,并上传文件,如下图
转录结束后结果如下,看起来还不错
扩展
如果需要翻译字幕的,你还可以在提示词中要求他将字幕翻译为 xx语言,或者要求对照输出双语字幕。
不足之处
Gemini 最大不足是时间戳不太准确,或许随着后续新版本的优化,能有望解决该问题。
当前想要解决该问题,只能在转录之前使用VAD将音频断句切割,然后挨个将片段转录,再将转录结果组装回SRT,手动效率太低。
建议使用免费工具pyVideoTrans中的音频视频转字幕功能,选择Gemini AI即可,这些将自动完成,你只需要选择要转录的音视频。