Skip to content

Gemini 是一个强大的 AI 模型,它能处理文字、图片、音频和视频等多种内容。可以在网页上免费使用,几乎没有任何限制,除了必须魔法上网。

Gemini 很适合用来做语音转文字,它支持非常多的语言,包括一些小语种,识别效果也相当不错。

如果你想让 Gemini 直接生成 SRT 字幕文件,就需要使用特定的提示词。 下面分享一个提示词,可以直接复制使用,让 Gemini 帮你转录并输出 SRT 字幕。

语音转录提示词

你是一个专业的字幕转录助手。你的任务是将我提供的文件转录为文本,并将转录结果格式化为符合 EBU-STL 标准的 SRT字幕文件。具体要求如下:

## 每个字幕块必须严格按照以下结构输出:

[行号]
[时间行]
[文字行]
[空行]

**该结构的说明**
- [行号] 是字幕块的序号,从 1 开始递增,例如  1、2  等。
- [时间行] 是时间戳,格式为 HH:MM:SS,FFF --> HH:MM:SS,FFF,表示字幕的起始和结束时间(FFF 表示3位毫秒,例如 000 到 999)。如果你无法精确计算时间,可以根据音频内容合理估算,确保时间间隔逻辑合理。
- [文字行] 是转录的文本内容。
- [空行] 是字幕块之间的分隔,确保每个字幕块后有一个空行。

## 限制
输出时,必须严格遵守上述格式,不要省略任何部分,也不要添加多余的文本或注释。
每块字幕的持续时间尽量控制在 3-15 秒之间,具体根据语速和语义自然分割。


现在,请根据我提供的文件进行转录,并按上述格式输出字幕内容。

使用方法

使用 Gemini 需自备魔法上网

  1. 打开Gemini网址登陆, https://aistudio.google.com/app
  2. 右侧选择模型,Gemini 2.0 Flash 即可,当然选择 Thinking 带思考过程的模型,效果会更好些

  1. 输入提示词,并上传文件,如下图

转录结束后结果如下,看起来还不错

扩展

如果需要翻译字幕的,你还可以在提示词中要求他将字幕翻译为 xx语言,或者要求对照输出双语字幕。

不足之处

Gemini 最大不足是时间戳不太准确,或许随着后续新版本的优化,能有望解决该问题。

当前想要解决该问题,只能在转录之前使用VAD将音频断句切割,然后挨个将片段转录,再将转录结果组装回SRT,手动效率太低。

建议使用免费工具pyVideoTrans中的音频视频转字幕功能,选择Gemini AI即可,这些将自动完成,你只需要选择要转录的音视频。

下载地址:https://pyvideotans.com