Skip to content

快速使用入门

本教程将带您从零开始完成第一个视频翻译任务。

核心功能一览
  • 全自动视频翻译、音频翻译:智能识别转录音视频中的说话声,生成源语言字幕文件,再翻译为目标语言字幕文件,接着进行配音,最后将新的音频与字幕合成到原视频中,一气呵成(左侧功能面板:翻译视频和音频)。
  • 语音转录/音视频转字幕:批量将视频或音频文件中的人类说话声,精准转录为带时间轴的 SRT 字幕文件(左侧功能面板:批量语音转字幕)。
  • 语音合成/文字转语音 (TTS):利用多种先进的 TTS 渠道,为您的文本或 SRT 字幕文件生成高质量、自然流畅的配音(左侧功能面板:批量为字幕配音)。
  • SRT 字幕文件翻译:支持批量翻译 SRT 字幕文件,保留原有时间码和格式,并提供多种双语字幕样式(左侧功能面板:批量翻译srt字幕)。

一、软件工作原理

pyVideoTrans 的核心功能是「视频翻译」,将一个语言的视频自动翻译成另一个语言:

[原始视频] --> [语音识别] --> [字幕翻译] --> [语音合成] -->
	--> [音画同步对齐] --> [输出翻译视频]

通俗解释

  1. 语音识别:像听写员一样,把视频里人物说的话逐字听写成字幕
  2. 字幕翻译:把听写出来的字幕翻译成目标语言
  3. 语音合成:用 AI 语音把翻译后的字幕"读"出来,生成配音
  4. 同步对齐:把新的配音和原视频画面重新对齐,确保声音和画面同步

整个过程完全自动化,您只需选择文件和设置参数,点击开始即可。


二、下载与安装

Windows 用户

  1. 下载预打包版本:点击下载Windows版
  2. 建议解压到只包含英文及数字的简短路径中(如 D:\pyVideoTrans
  3. 双击 sp.exe 启动

⚠️ 请勿直接在压缩包内运行。如需 GPU 加速,请确保已安装 CUDA 12.8 和 cuDNN 9

解压路径示例

点击查看注意事项,可避免大多数错误
  1. 不要解压到 C:/Program FilesC:/Windows 等需要特殊权限的系统文件夹,因软件生成的文件和临时文件均需要写入解压路径中。
  2. 推荐将软件解压到仅包含英文和数字的文件夹中,例如 D:/videotrans,然后将压缩包解压到此文件夹内。强烈不建议包含任何中文、空格或特殊符号,存放路径也不可太深。
  3. 待翻译的视频请保持简短的文件名,例如30个字符内长度较好,而上百个字符则太长,叠加路径和其他命令后,在Windows下可能超过系统限制而报错。

文件名中也不要包含":?*等特殊符号,否则Win上同样可能报错,尤其从油管下载的视频,文件名通常超级长,还包括各种特殊符号,若不经修改直接使用,大概率在win系统上会遇到各种错误,建议修改为简短的名称并去除各种特殊符号。 4. Windows下请开启显示扩展名(默认是隐藏的),能避免一些错误,尤其涉及参考音频填写时。

打开任意一个文件夹,点击导航栏--查看--文件扩展名,选中它,选中后mp4视频将会在名称后显示扩展名.mp4,wav音频会显示扩展名.wav

macOS / Linux 用户

  1. 安装依赖:

    bash
    # macOS
    brew install ffmpeg libsndfile git
    # Ubuntu/Debian
    sudo apt-get install ffmpeg libsndfile1-dev
  2. 安装 uv:

    bash
    curl -LsSf https://astral.sh/uv/install.sh | sh
  3. 克隆并启动:

    bash
    git clone https://github.com/jianchang512/pyvideotrans.git
    cd pyvideotrans
    uv sync
    uv run sp.py

详细源码部署文档


三、界面概览

启动软件后,主界面从上到下分为以下几行:

内容说明
第1行选择视频支持 mp4/mkv/avi/mov/wav/mp3 等格式
第2行语音识别选择识别渠道和模型,用于将说话声转为字幕
第3行翻译字幕选择翻译渠道、源语言和目标语言,用于翻译上一步识别出的字幕
第4行字幕配音选择配音渠道和发音角色,为翻译好的字幕进行配音
第5行同步对齐音频加速、视频慢速、语速音量、嵌入字幕
第6行开始执行点击后开始处理
第7行进度条显示处理进度,点击打开输出文件夹
第8行更多参数降噪、背景声处理等高级选项
点击查看各个功能截图预览
  • 左侧功能区
  • 翻译视频和音:智能识别转录音视频中的说话声,生成源语言字幕文件,再翻译为目标语言字幕文件,接着进行配音,最后将新的音频与字幕合成到原视频中,一气呵成()。
  • 批量语音转字幕:批量将视频或音频文件中的人类说话声,精准转录为带时间轴的 SRT 字幕文件。
  • 批量为字幕配音:利用多种先进的 TTS 渠道,为您的文本或 SRT 字幕文件生成高质量、自然流畅的配音。
  • 批量翻译srt字幕:支持批量翻译 SRT 字幕文件,保留原有时间码和格式,并提供多种双语字幕样式。
  • 音视频字幕合并:将音频、视频、字幕三者合并为一个视频文件

  • 顶部菜单栏:进行全局配置。

  • 翻译设置:配置各个翻译渠道(如OpenAI , Azure, DeepSeek )的API Key和相关参数。

  • TTS设置:配置各配音渠道(如OpenAI TTS, Azure TTS)的API Key和相关参数,以及设置参考音频。

  • 语音识别设置:配置语音识别渠道(如OpenAI API, 阿里ASR)的API Key和参数。

  • 工具/选项:包含各种高级选项和辅助工具,如字幕格式调整、视频合并、人声分离等。

  • 帮助/关于:查看软件版本信息、文档和社区链接。

免费/本地API/本地内置 是什么意思
  • 免费: 例如 Google翻译、微软翻译、Edge-TTS配音,这些渠道都是在线免费使用的,无需配置开箱即用,只是需注意有限流错误,高频使用时可能会遇到报错
  • 本地API: 很多开源模型可自行在本地部署,部署并启动后,将API地址或WebUI地址填写在 pyVideoTrans 软件设置界面,软件即可通过该地址调用你部署的模型服务。例如 GPT-SoVITS / CosyVoice / F5-TTS 等
  • 本地内置: 有些模型可以相对方便的集成到 pyVideoTrans 软件内,而无需单独另行部署,开箱可用,例如 VITS/Piper/Qwen3-TTS/Qwen3-ASR/SuperionTTS/ChatterBox等额,但需要注意,为避免软件体积无限膨胀,仅调用代码内置,模型本身并未内置,第一次使用时需在线下载模型。后续使用时可能也会检测模型更新,需保持联网状态,若想纯离线,你需要源码部署本软件并使用AI修改代码。

模型下载地址为 huggingface.co(被墙的国外模型站)/hf-mirror.com(国内镜像站)/modelscope.cn(阿里魔塔)/github.com(微软代码库)


四、第一次翻译:详细步骤

以「将中文视频翻译成英文」为例。

步骤 1:选择视频文件

点击「选择音频或视频」按钮,选择您要翻译的文件。支持 mp4/mkv/avi/mov/wav/mp3 等格式。

  • 文件夹:勾选此项可批量处理整个文件夹内的所有视频。

  • 清理已生成:若需对同一视频重新处理(而不是使用缓存),请勾选此项,否则会使用上次已生成的缓存文件。

  • 输出到..:默认翻译后的文件保存到原视频目录下的 _video_out 文件夹,点击此按钮可单独设置翻译后视频的输出目录。

  • 仅输出mp4:如果选中,则输出中只保留最终的翻译视频,其他字幕、音频等文件都会自动删除。

  • 完成后关机:处理完所有任务后自动关闭计算机,适合大批量、长时间任务。

步骤 2:选择语音识别渠道

渠道推荐场景说明
faster-whisper(本地内置)默认推荐速度快、质量高
openai-whisper(本地内置)高精度需求准确度略高,速度较慢
Qwen-ASR(本地内置)中文视频中文识别效果特别好

模型选择:

  • tiny → 最快,准确度低
  • base / small → 平衡之选
  • medium → 较好效果
  • large-v3 → 最佳效果,需要 8GB+ 显存
  • large-v3-turbo推荐,速度与质量兼顾
二次识别和默认短句/LLM重新断句
  • 二次识别:在选择配音并选择了嵌入单字幕时,可选中二次识别,将在配音完毕后再次对配音文件进行语音转录,生成较为简短的字幕嵌入视频内,确保字幕和配音精确对齐(在高级选项--语音识别区域--而设置二次识别的最长语音持续时间和最短语音持续时间,设置较小的值有利于生成短小字幕)
  • 默认断句和LLM重新断句: LLM重新断句是指在语音识别出字幕文本后,将文本发送给AI大模型,修正错别字、重新切分长文本等,以得到更通顺流畅的结果,需配置DeepSeek或OpenAI ChatGPT具体使用哪个翻译渠道进行LLM重新断句,可在菜单-工具--高级选项-通用-LLM断句模型里选择,但注意使用LLM重新断句后结果也可能更糟糕,因效果取决于AI大模型本身智能,在克隆原音色(即配音角色是clone)时,不建议使用该断句方式,默认即可。

LLM重新断句的提示词在软件目录/videotrans/prompts/recharge/recharge-llm.txt中,可自行修改调整

如果选中了二次识别和LLM重新断句,将在二次识别后,对识别结果再次使用 LLM重新断句,提示词在文件软件目录/videotrans/prompts/recharge/recharge-llm.txt2

点击查看 所有支持的语音识别渠道

步骤 3:选择翻译渠道

渠道说明
Google(免费)翻译质量尚可,国内需要科学上网
Microsoft(免费)无需代理,可能限流
M2M100(本地)本地模型翻译
DeepSeekAI大模型翻译质量佳,DeepSeek 物美价廉推荐使用

然后选择发音语言(视频中人物说的语言)和目标语言(希望翻译成的语言)。

点击查看 所有支持的翻译渠道

步骤 4:选择配音渠道

渠道说明
Edge-TTS(免费)默认推荐,微软免费接口,声音自然
Qwen3-TTS(本地内置)阿里本地模型,效果好速度慢
ChatterBox(本地内置)多语言,效果好

选择渠道后,在「配音角色」下拉框中选择发音人。配音角色选中clone,代表将使用原始视频对应的音色进行配音

点击查看 所有支持的配音渠道

步骤 5:调整同步与字幕

参数默认值说明
配音加速✅ 选中配音比原视频长时,加速配音匹配时长
视频慢速☐ 不选配音比原视频长时,放慢视频匹配配音
字幕嵌入类型嵌入硬字幕字幕永久烧录到画面

字幕类型:

  • 不嵌入字幕:只替换声音
  • 嵌入硬字幕:字幕永久烧录到画面
  • 嵌入软字幕:字幕作为独立轨道,播放器可开关
  • 嵌入硬字幕(双语):同时显示原文和译文
  • 嵌入软字幕(双语):双语字幕,播放器可开关

点击查看 视频翻译中的配音、字幕、画面同步对齐 原理

步骤 6:开始执行

CUDA加速:如果你有英伟达显卡,并且配置好了 CUDA12.8 和 cuDNN9,可选中,语音识别阶段速度数倍提升

点击 🚀 开始执行 按钮,底部进度条实时显示进度,点击打开输出文件夹,完成后翻译视频自动保存到输出文件夹。


五、更多设置

设置更多参数

点击「设置更多参数」展开:

参数说明
降噪清除背景噪声
分离人声背景声将人声与背景音乐分离
重新嵌入背景声分离后将背景声重新嵌入
背景音量调整背景音量(0.0-2.0)
标点处理恢复标点 / 删除标点
配音语速调整配音速度(-50% ~ +50%)
音量调整调整配音音量(-95% ~ +100%)
音调调整配音音调(-100Hz ~ +100Hz)

六、无损视频输出

确保满足以下所有条件,输出视频保持原始画质:

  1. 原始视频编码为 H.264 (libx264) 的 MP4 文件
  2. 不勾选「视频自动慢速」
  3. 字幕类型选择「不嵌入字幕」或「嵌入软字幕」
  4. 高级选项中,264/265编码选择 264

七、完整高级选项参考

通过 菜单 -> 工具 -> 高级选项 进入:

点击查看 菜单-工具-高级选项 各个参数使用说明

通用设置

参数说明默认值
软件界面语言修改后需重启zh
单视频交互翻译暂停倒计时暂停编辑的秒数30
独立功能输出目录批量功能的输出位置output/
失败后重试次数可恢复错误的重试次数1
CPU同时任务数最大 CPU 并发数自动
GPU同时任务数GPU 并发数1

视频输出控制

参数说明默认值
视频输出质量控制 (CRF)0=无损,51=质量差23
输出视频压缩率ultrafast→veryslowmedium
264/265编码264兼容性好,265压缩比大264
输出视频格式mp4 或 mkvmp4

语音识别参数

参数说明默认值
语音阈值VAD 语音概率阈值0.5
最长语音持续(秒)超过此时长强制分割6
最短语音持续(毫秒)小于此值合并到相邻字幕3000
静音分割持续毫秒大于此值的静音处分割140
beam_size识别精度 1-55

字幕翻译调整

参数说明默认值
传统翻译渠道每批字幕行数每次发送的行数5
AI翻译渠道每批字幕行数每次发送的行数20
发送完整字幕AI翻译时附带时间轴

字幕配音调整

参数说明默认值
并发配音线程数同时配音的线程数1
EdgeTTS配音并发数越大越快但可能限流10

字幕声音画面对齐

参数说明默认值
音频加速最大倍数最大加速倍率100
视频慢放最大倍数最大慢放倍率10
中日韩字幕单行字符数超过将换行15

八、常见问题

Q: 处理速度很慢?

  1. 确保已启用 GPU 加速(CUDA)
  2. 使用较小的模型
  3. 确保显卡驱动已更新

Q: 识别结果不准确?

  1. 检查「发音语言」是否选择正确
  2. 尝试更换更大的模型
  3. 开启「降噪」功能
  4. 调整「语音阈值」参数

Q: 翻译后声音、字幕、画面不同步?

这是正常现象。不同语言的音节数和语法结构不同,配音时长必然变化。解决方案:

  1. 启用「音频加速」(默认已启用)
  2. 可同时启用「视频慢速」
  3. 设置「配音语速」加快整体速度

Q: 输出视频文件太大?

  1. 增大「视频输出质量控制」的值(如 25-30)
  2. 将编码从 264 改为 265
  3. 关闭「视频慢速」

Q: 如何使用 GPU 加速?

确保已安装 NVIDIA 显卡驱动、CUDA 12.8 和 cuDNN 9.11,然后在主界面勾选「CUDA 加速」。AMD 显卡不支持 CUDA 加速。

Q: 无损视频输出的条件?

原始视频编码为 H.264 MP4 + 不勾选视频慢速 + 不嵌入硬字幕 + 编码选择 264。


相关文档