Skip to content

下载后,解压到英文目录下

双击其中的 sp.exe, 稍等片刻,即打开如下界面。

点击左侧的 音视频转字幕。然后点击选择需要处理音频或视频文件,可选择多个。

再设置音视频中的人类说话语言,比如中文还是英文,其他保持默认即可,然后点击“开始执行”。

等待执行完毕,点击底部的 “打开识别结果保存目录”,就能看到处理结果了。

那几个选项都是用来干吗的

发音语言

这个很明显,是用来设置音频视频中的人类说话声音,如果选择了“中文简”,那么就会按照中文去进行识别,不可错选哦!

faster模式

分别有“faster模式/openai模式/GoogleSpeech/zh_recogn中文识别” 4种选择。

推荐首选 faster模式,速度较快,效果也不错,并支持十多种语言。

openai模式效果也可以,不过速度更慢些,断句效果也略逊色。

GoogleSpeech是使用google提供的在线免费识别api,效果不佳,并且需要科学上网,不建议使用。

zh_recogn中文识别是使用阿里的中文大模型来进行识别,针对中文任务,效果更好一些,不过需要提前安装部署好“zh_recogn”项目,具体方法见 https://pyvideotrans.com/zh_recogn

选择模型名字:

在使用 faster模式 和 openai模式 时,需要选择模型名字,软件自带一个faster模式下的tiny模型,这是尺寸最小也是效果最差的模型,为减小软件体积,默认只内置该模型。

tiny -> base -> small -> medium -> large-v1 -> large-v2 -> large-v3

模型体积依次增大,效果越来越好,但对计算机硬件要求越来越高。不启用“CUDA”的情况下,建议选用“medium”,体积和效果中等,硬件要求也不高。

模型下载地址 https://pyvideotrans.com/model

启用CUDA

如果你的计算机配备了英伟达显卡、独立显存大于12G,可选择安装配置CUDA环境后,启用CUDA,然后使用large-v3模型,效果最佳。 配置方法 https://pyvideotrans.com/gpu

整体识别

这里有3种模式:整体识别、预先分割、均等分割,主要用于辅助断句。

其中openai模式时将强制使用 均等分割,默认10秒数一条字幕,可通过 videotrans/set.ini 中参数 interval_split=10进行调整。

整体识别和预先分割均使用VAD辅助断句,相对更精准一些。

其他还有哪些功能

  • 批量将字幕文件合成为语音
  • 一键将视频翻译为另一种语言发音并自动嵌入配音和字幕
  • 批量翻译字幕文件
  • 合并2个字幕
  • ...

更多功能等待探索哦