Skip to content

这是一个开源的视频翻译配音工具(开源协议GPL-v3),可将一种语言发音的视频,翻译为另一种语言发音的视频,并嵌入该语言字幕。比如有一个英文电影,发音是英文,没有英文字幕,也没有中文字幕,使用这个工具处理后,可以转成带中文字幕,并且带有中文配音的电影。

同时还集成 语音识别/文字配音/字幕翻译/音视频合并/视频字幕合并/视频加水印 等功能

开源地址 https://github.com/jianchang512/pyvideotrans

pyvideotrans-home

该软件左侧分不同功能模式,以下将挨个介绍每种模式的功能和界面选项作用。

标准模式下每个选项的作用

如上图所示,每个选项的作用如下

  1. 选择视频:选择要翻译的原始视频,该视频必须要有人类说话声,并且声音要清晰,不得有过大噪声,否则识别结果不会太准确,请注意如果没有说话声,是不可以的,无论有无字幕均不可,因为本软件原理是识别人类说话声音来生成字幕的。可以按住ctrl键一次选中多个视频,但所有视频中说话语言必须一样。
  2. 翻译渠道: FreeGoogle和Microsoft可直接使用无需代理和配置,其他翻译渠道要么免费但需要代理,比如Google,要么需要配置如百度翻译腾讯翻译等. 如果不懂建议选择Microsoft或FreeGoogle
  3. 原始语言:选择视频里的人类说话语言,比如视频里人类说话声音是英语,那么这里必须选择英语
  4. 目标语言:选择要翻译到的目标语言,例如你希望将视频翻译到中文发音并嵌入中文字幕,那么这里要选择中文简
  5. 网络代理地址: 如果使用了Google或Gemini等国内无法访问的服务,就必须填写代理地址,例如你使用了某v2ray软件,则填写http://127.0.0.12:1:10809 如果你不懂代理,请勿随意填写,也不要使用国内无法访问的服务
  6. 配音渠道:edgeTTS免费且无需配置可直接使用,其他配音渠道均需要配置或安装,如果不懂建议选择edgeTTS
  7. 配音角色:选择发音人角色,不同角色音色不同,需要先选择目标语言后再选择该角色
  8. faster模式:识别视频里的人类说话声所用的模式,不懂选择默认faster模式即可
  9. tiny:识别视频里的人类说话所用模型,默认包含faste模式下的tiny模型,建议选择medium或更大模型,准确率高。如果选择了faster模式和openai模式,需要额外下载模型到软件目录下的models里,默认只包含faster模式下的tiny模型,其他模型下载地址 https://github.com/jianchang512/stt/releases/tag/0.0 如果你不太懂,只想简单试试,此处选择tiny即可,无需下载可直接使用
  10. 整体识别:默认即可。无需动
  11. 嵌入字幕:字幕嵌入到视频里的方式,软字幕嵌入需要播放器支持才可显示,在网页中无法显示,硬字幕嵌入无论哪里播放都显示,网页中也可以显示
  12. 视频末尾:配音后时长可能大于原视频时长,选中它则延长视频最后10ms直到配音结束,建议选中
  13. 配音自动加速:配音时长可能大于原语言时长,选中它则强制加快语速实现一致,最大加速幅度可在菜单--工具/高级设置--高级设置中修改
  14. 视频自动慢速:选中它则慢放视频实现视频和声音字幕对齐,慢放幅度同样可在高级设置菜单中控制
  15. 保留背景音:选中则保留视频里原有的背景声音,比如背景音乐等,如果选中它,则处理速度会比较慢,尤其视频较大时
  16. CUDA加速:Win和Linux机器上如果有N卡则可使用它加速,需要机器上安装CUDA环境,安装教程见 https://pyvideotrans.com/gpu.html
  17. 清理已生成:如果对同一视频反复执行,可选中它删除掉已生成过的,再重新生成
  18. 完成后关机:任务执行完毕后是否关闭计算机
  19. 开始处理:一切处理好后,点击开始执行
  20. 导入字幕:如果想使用本地已有的字幕,可点击导入,导入后将直接使用它,而不再进行识别。
  21. 配音整体语速:例如10,表示语速在正常基础上加快10%,-10代表减去10%
  22. 音量+:在正常音量基础上对音量进行加减变化,仅edgeTTS下有效
  23. 音调+:在正常音调基础上对音调进行加减变化,仅edgeTTS下有效

简单新手模式

简单新手模式其实和标准模式一样,只不过是隐藏了其他选项,而对隐藏的选项都使用了默认配置,如果你想对隐藏的选项进行自定义,可以使用标准模式

image-20240808010353609

视频转为字幕

如果你只想从已有的原始视频中,根据人类说话声生成srt字幕格式,可选择该模式

image-20240808010410631

选择视频:选择要生成字幕的原始视频,注意该视频中必须要有人类说话声音,同样可以选择多个视频

翻译渠道: FreeGoogle和Mircosoft可直接使用无需代理和配置,其他翻译渠道要么免费但需要代理,比如Google,要么需要配置如百度翻译腾讯翻译等

原始语言:选择视频里的人类说话语言,比如视频里人类说话声音是英语,那么这里必须选择英语

目标语言:选择要翻译到的目标语言,例如你希望将视频翻译到中文发音并嵌入中文字幕,那么这里要选择中文简

网络代理地址:如果使用了Google或Gemini等国内无法访问的服务,就必须填写代理地址,例如你使用了某v2ray软件,则填写http://127.0.0.12:1:10809 如果你不懂代理,请勿随意填写,也不要使用国内无法访问的服务

faste模式:识别视频里的人类说话声所用的模式,不懂默认即可

tiny:识别视频里的人类说话所用模型,默认包含faste模式下的tiny模型,建议选择medium或更大模型,准确率高。如果选择了faster模式和openai模式,需要额外下载模型到软件目录下的models里,默认只包含faster模式下的tiny模型,其他模型下载地址 https://github.com/jianchang512/stt/releases/tag/0.0

整体识别:默认即可。无需动

CUDA加速:Win和Linux机器上如果有N卡则可使用它加速,需要机器上安装CUDA环境,安装教程见 https://pyvideotrans.com/gpu.html

开始处理:一切处理好后,点击开始执行

音视频转字幕

该模式同 视频转为字幕 模式类似,只不过除支持视频外,还支持音频。

image-20240808010540912

发音语言:音视频中的人类说话语言,必须要有人类说话声音,否则无法生成字幕

faste模式:识别视频里的人类说话声所用的模式,不懂默认即可

tiny:识别视频里的人类说话所用模型,默认包含faste模式下的tiny模型,建议选择medium或更大模型,准确率高。如果选择了faster模式和openai模式,需要额外下载模型到软件目录下的models里,默认只包含faster模式下的tiny模型,其他模型下载地址 https://github.com/jianchang512/stt/releases/tag/0.0

整体识别:默认即可。无需动

启用CUDA:Win和Linux机器上如果有N卡则可使用它加速,需要机器上安装CUDA环境,安装教程见 https://pyvideotrans.com/gpu.html

开始执行:一切处理好后,点击开始执行

打开识别结果保存目录:打开识别后的字幕所保存的文件夹

批量翻译字幕

该模式用于将srt格式的字幕文件翻译为另一种语言的srt字幕,比如将中文srt字幕翻译为英文srt字幕

image-20240808010555888

翻译渠道: FreeGoogle和Mircosoft可直接使用无需代理和配置,其他翻译渠道要么免费但需要代理,比如Google,要么需要配置如百度翻译腾讯翻译等

目标语言:选择要翻译到的目标语言,例如你希望将视频翻译到中文发音并嵌入中文字幕,那么这里要选择中文简

网络代理地址:如果使用了Google或Gemini等国内无法访问的服务,就必须填写代理地址,例如你使用了某v2ray软件,则填写http://127.0.0.12:1:10809 如果你不懂代理,请勿随意填写,也不要使用国内无法访问的服务

从srt文件导入字幕:从本地导入1个或多个字幕进行翻译,所有字幕文字语言必须相同

字幕输出格式

单语字幕: 翻译结果只有目标语言这一种字幕

目标语言在上(双): 翻译结果包含原始语言和目标语言两种字幕,目标语言在上,原始语言在下

目标语言在下(双): 翻译结果包含原始语言和目标语言两种字幕,目标语言在下,原始语言在上

打开翻译结果保存目录:打开翻译后保存到的文件夹

批量字幕配音

同单个字幕配音功能一致,只不过该处可对多个字幕同时配音

image-20240808010618979

从srt文件导入字幕:从本地导入字幕,可选多个,文字语言必须一致

字幕语言:即srt字幕里的文字语言

TTS:即配音渠道,edgeTTS免费且无需配置可直接使用,其他配音渠道均需要配置

选择角色:选择发音人角色,不同角色音色不同,需要先选择目标语言后再选择该角色

自动加速:不同语言发音时长肯定有差异,配音后可能无法和字幕时段对齐,选中该项可强制加速语音实现对齐。

速度变化百分比:例如10,表示语速在正常基础上加快10%,-10代表减去10%

音量+:在正常音量基础上对音量进行加减变化,仅edgeTTS下有效

音调+:在正常音调基础上对音调进行加减变化,仅edgeTTS下有效

是srt字幕:如果导入的是srt字幕文件,必须确保该项选中,否则会出错

输出音频名称:这里可设置生成后的音频文件的名称,

打开目录:打开生成结果所在文件夹

开始处理:一切处理好后,点击开始执行

视频音频合并

该功能用于批量将视频和音频一一对应合并,即将音频文件嵌入视频中,支持一次处理多个视频和音频

视频字幕合并

该功能用于批量将视频和srt字幕一一对应合并,即将srt字幕嵌入视频创建字幕,支持一次处理多个视频和字幕

字幕格式转换

用于批量将字幕从一种格式转为其他格式,比如srt字幕转为ass或vtt

音视频格式转换

用于批量将音频或视频从一种格式转换为其他格式


菜单-工具

下载油管视频

该功能用于从Youtube下载视频

image-20240808010810495

网络代理地址:众所周知Youtube国内无法访问,因此你需要填写网络代理地址

视频播放页url:需要下载那个视频,就从youtube网页打开该视频播放,复制播放地址到此

选择保存目录:下载后要保存到哪里

并发数:同时下载线程数量,越大下载越快,但也可能出错,建议低于10,默认8

使用VID作为视频名称:默认视频名称是视频标题名,非常长而且有乱七八糟的符号, 在windows上处理时可能出错,因此可选中该项,将名称变的短小,防止出错

注意

  1. 实际下载是分别下载视频画面无声文件和音频文件,下载完毕后再自动合并。请等待合并后或已提示 下载成功再打开视频文件,否则可能导致合并失败。
  2. 如果你是源码安装,可能会提示失败,因为缺少一个exe文件,可根据操作系统下载该文件后复制到本软件的
  3. Youtube反爬逐渐严格,很多代理节点ip是无法下载的,返回错误400或超时等,请更换代理节点后重试

ffmpeg文件夹下

win下载: https://github.com/jianchang512/pyvideotrans/releases/download/v2.19/ytwin32.exe

mac下载: https://github.com/jianchang512/pyvideotrans/releases/download/v2.19/ytdarwin

linux下载: https://github.com/jianchang512/pyvideotrans/releases/download/v2.19/ytlinux

从视频分离音频

该模式用于从一个视频文件中分离出里面的声音为一个音频文件。

image-20240808010644396

两个音频混流

该模式用于将2个音频文件混合在一起,一个做背景音一个做前景音,同时播放

image-20240808010701700

合并两个字幕

该模式用于将2个不同字幕合并到一起,例如同一个字幕有中文、英文不同语言版本,那么可使用这个功能合成为一个字幕文件,合成后的字幕将为双语字幕,一行中文一行英文同时显示

image-20240808010723068

视频添加水印

批量为所选视频添加水印图片

选项置

对一些高级参数进行设置和调整

image-20240808010859996

设置翻译

有些翻译渠道需要额外配置,均可在该菜单下进行配置

image-20240808010828675

设置TTS

有些配音渠道需要额外配置,均可在该菜单下进行配置

设置语音识别

有些语音识别渠道需要额外配置,均可在该菜单下进行配置