快速使用入门-pyVideoTrans | pyVideoTrans官网-开源免费视频翻译配音软件 pyvideotrans.com pyvideotrans github github.com/jianchang512/pyvideotrans

这是一款功能强大的开源视频翻译软件，致力于将视频从一种语言的语音和字幕，无缝转换到另一种语言。无论您是内容创作者、教育工作者还是语言学习者，pyVideoTrans 都能为您提供一站式的解决方案，打破语言障碍。

核心功能一览

全自动视频翻译：智能识别视频中的语音，生成源语言字幕，翻译为目标语言，再进行配音，最后将新的音频与字幕合成到原视频中，一气呵成。
语音识别与转录：批量将视频或音频文件中的人类说话声，精准转录为带时间轴的 SRT 字幕文件。
SRT 字幕文件翻译：支持批量翻译 SRT 字幕文件，保留原有时间码和格式，并提供多种双语字幕样式。
文字/字幕转语音 (TTS)：利用多种先进的 TTS 渠道，为您的文本或 SRT 字幕文件生成高质量、自然流畅的配音。
实用工具集：内置视频/音频/字幕合并、人声与背景音分离等多种辅助工具，满足您在视频处理中的各种精细化需求。

软件工作原理

在开始之前，请务必理解本软件的核心工作方式：

pyVideoTrans 通过识别和处理视频中的【人类说话的声音】来进行工作，它与视频画面中是否已有字幕（硬字幕）完全无关。

可以处理：任何包含人类语音的视频，无论它有没有内嵌字幕。
无法处理：只有背景音乐和硬字幕，但没有任何人说话的视频。本软件也无法直接提取视频画面中的硬字幕。

下载与安装

1.1 Windows 用户 (预打包版)

我们为 Windows 10/11 用户提供了开箱即用的预打包版本，无需繁琐配置。

点击去下载windows预打包版，解压即用

解压注意事项

错误地解压是导致软件无法启动的最常见原因，请严格遵守以下规则：

禁止使用管理员权限路径：不要解压到 C:/Program Files、C:/Windows 或 桌面 等系统文件夹。
路径必须为纯英文：解压路径不能包含任何中文、空格或特殊符号。
推荐做法：在 D 盘或 E 盘等非系统盘，新建一个纯英文或数字的文件夹（例如 D:/videotrans），然后将压缩包解压到此文件夹内。

解压路径示例

启动软件

解压完成后，进入文件夹，找到 sp.exe 文件，双击运行即可。 sp.exe

软件首次启动时需要加载较多模块，可能需要几十秒时间，请耐心等待。

1.2 MacOS / Linux 用户 (源码部署)

对于 MacOS 和 Linux 用户，需要通过源码方式进行部署。

源码仓库地址：https://github.com/jianchang512/pyvideotrans
详细部署教程：
- MacOS 系统源码部署详细教程
- Linux 系统源码部署详细教程

软件界面与核心功能

软件启动后，您会看到如下主界面。

左侧功能区：切换软件的主要功能模块，如自定义视频翻译、音视频转字幕等。
顶部菜单栏：进行全局配置。
- 翻译设置：配置各翻译渠道（如OpenAI , Azure ）的API Key和相关参数。
- TTS设置：配置各配音渠道（如OpenAI TTS, Azure TTS）的API Key和相关参数。
- 语音识别设置：配置语音识别渠道（如OpenAI API, 阿里ASR）的API Key和参数。
- 工具/选项：包含各种高级选项和辅助工具，如字幕格式调整、视频合并、人声分离等。
- 帮助/关于：查看软件版本信息、文档和社区链接。
右侧工作区：当前功能模块的具体操作区域。

快速入门 - 视频翻译全流程

这是软件最核心的功能。我们将一步步带您完成一个完整的视频翻译任务。默认打开的即是 自定义视频翻译 模块。

第 1 步：选择视频和输出设置

选择要处理的视频：点击按钮，选择一个或多个视频文件（按住 Ctrl 可多选）。
文件夹：勾选此项可批量处理整个文件夹内的所有视频。
保存到..：设置翻译后视频的输出目录。默认为原视频目录下的 _video_out 文件夹。
清理已生成：若需对同一视频重新处理（而不是使用缓存），请勾选此项。
仅保存视频：勾选后，处理完成后只保留最终的 MP4 视频，自动删除字幕、音频等中间文件。
转移字幕位置：若原始视频有硬字幕，勾选此项可尝试将新字幕放置在不同位置以避免重叠。
完成后关机：处理完所有任务后自动关闭计算机，适合大批量、长时间任务。

第 2 步：配置翻译和配音

翻译渠道：选择用于翻译字幕的引擎。
- 免费：Google(免费)（需代理）、微软翻译（无需代理）。
- 高质量 (需配置API Key)：OpenAI、Gemini、DeepL 等。API Key在顶部菜单栏相应位置设置。
发音语言：必须准确选择原始视频中人物说话的语言。
目标语言：您希望翻译成的目标语言。
术语表: 勾选后，可使用预设的术语表进行翻译，确保专业词汇的准确性。
网络代理: 如果使用需要代理的渠道（如Google, OpenAI），请在此填写您的代理地址和端口 (如 http://127.0.0.1:10808)。
配音渠道：选择生成配音的引擎。Edge-TTS 是默认选项，免费且效果出色。
配音角色：必须先选定目标语言，才能加载并选择对应的音色（男声/女声等）。
试听配音：点击可预览当前角色的声音效果。
配音语速/音量/音调：按需调整，数值代表在默认基础上的百分比增减。

第 3 步：配置语音识别

这是将视频语音转为文字字幕的关键一步，直接影响后续所有流程的质量。

语音识别：推荐使用默认的 faster-whisper(本地)，它免费、在本地运行且效果出色。
选择模型：模型越大，识别越准，但速度越慢、资源消耗也越多。
- 入门：tiny / medium
- 推荐：large-v3-turbo (效果佳速度快，强烈推荐配合NVIDIA显卡及CUDA加速)。
语音切割模式：建议使用默认的 整体识别。
LLM重新断句: 勾选后，将使用大语言模型对识别出的文字进行智能断句和标点优化，显著提升字幕可读性。
降噪: 勾选后，将对音频进行降噪处理，提高在嘈杂环境下的语音识别准确率。

第 4 步：设置同步与字幕

由于不同语言语速不同，翻译后的配音时长可能与原视频不符，这里可以进行调整。

同步对齐：
- 配音加速：当配音比视频长时，加速配音以匹配视频时长（常用）。
- 视频慢速：当配音比视频长时，放慢视频以匹配配音时长。
- 视频延长：当配音比视频长时，在视频结尾添加静止帧以匹配配音时长。
字幕嵌入：
- 不嵌入字幕：只替换声音，不添加任何字幕。
- 嵌入硬字幕：将字幕永久“烧录”到画面中，无法关闭。
- 嵌入软字幕：将字幕作为独立轨道封装进视频，播放器可选择开关。
- (双)：同时嵌入源语言和目标语言的双语字幕。

第 5 步：处理背景音

保留原始背景音：勾选此项，软件会尝试分离原视频的人声和背景音，并将背景音保留在最终视频中。注意：此功能会显著增加处理时间，但能极大提升成品质量。
添加额外背景音频：您也可以选择一个自己的音频文件作为新的背景音乐。
背景音量: 调整背景音的音量，小于1为减小，大于1为增大。

第 6 步：开始执行

CUDA加速：如果您有 NVIDIA 显卡并正确安装了 CUDA 环境，请务必勾选此项，它能将语音识别的速度提升数倍甚至数十倍。

一切设置完毕后，点击【开始】按钮。

执行中

软件会开始工作。如果只处理一个视频，在字幕生成和翻译后会暂停，让您有机会在右侧文本框中校对和修改字幕。确认无误后再次点击执行即可继续。

第 7 步：查看成果

任务完成后，点击底部进度条区域即可打开输出文件夹。您会看到最终的 MP4 文件以及过程中生成的 SRT 字幕、配音文件等素材。

探索其他实用功能

除了核心的视频翻译，pyVideoTrans 还提供了多个独立的强大功能。

4.1 音视频转字幕/语音转录/语音识别

批量将视频或音频文件转录为 SRT 字幕。只需拖入文件，设定好原始语言和识别模型，即可开始。支持 LLM重新断句 和 降噪 等高级功能。

4.2 批量翻译 SRT 字幕

如果您已有 SRT 字幕文件，此功能可以帮您快速翻译成其他语言，并保持时间轴不变。还支持选择 单语字幕、目标语言在上(双)、目标语言在下(双) 等多种输出格式。

4.3 批量为字幕配音

将您的 SRT 文件或纯文本，通过选择的 TTS 引擎，批量合成为配音文件（如 WAV 或 MP3）。支持精细调整语速、音量和音调。

4.4 音视频字幕合并

这是一个实用的后期工具。当您分别拥有视频、配音、字幕文件时，可用它将三者完美地合并成一个最终视频文件，并支持自定义字幕样式。

第五章：功能总览与支持列表

pyVideoTrans 的强大之处在于其高度的可扩展性和对多种服务的支持。

语音识别 (STT) 支持：
- 本地离线：faster-whisper, openai-whisper
- 在线 API：OpenAI SpeechToText, GoogleSpeech, 阿里 FunASR, 豆包模型, 以及自定义 API。
字幕翻译支持：
- 微软翻译, Google 翻译, 百度翻译, 腾讯翻译, DeepL, DeepLX, 字节火山
- 大语言模型：ChatGPT, AzureAI, Gemini, 其他兼容 OpenAI 的 AI 大模型及本地大模型
- 离线翻译：OTT

语音合成 (TTS) 支持：
- Microsoft Edge TTS, Google TTS, Azure AI TTS, OpenAI TTS, Elevenlabs
- 声音克隆/本地：GPT-SoVITS, clone-voice, ChatTTS, Fish TTS, CosyVoice, F5-TTS, KokoroTTS
- 自定义 TTS 服务器 API
支持的语言：
- 中文简繁、英语、韩语、日语、俄语、法语、德语、意大利语、西班牙语、葡萄牙语、越南语、泰国语、阿拉伯语、土耳其语、匈牙利语、印度语、乌克兰语、哈萨克语、印尼语、马来语、捷克语、波兰语、荷兰语、瑞典语、菲律宾语、芬兰语、波斯语等，并支持自动检测。

感谢您选择 pyVideoTrans，希望这款软件能成为您跨越语言鸿沟的得力助手！

核心功能一览 ​

软件工作原理 ​

下载与安装 ​

1.1 Windows 用户 (预打包版) ​

解压注意事项 ​

启动软件 ​

1.2 MacOS / Linux 用户 (源码部署) ​

软件界面与核心功能 ​

快速入门 - 视频翻译全流程 ​

第 1 步：选择视频和输出设置 ​

第 2 步：配置翻译和配音 ​

第 3 步：配置语音识别 ​

第 4 步：设置同步与字幕 ​

第 5 步：处理背景音 ​

第 6 步：开始执行 ​

第 7 步：查看成果 ​

探索其他实用功能 ​

4.1 音视频转字幕/语音转录/语音识别 ​

4.2 批量翻译 SRT 字幕 ​

4.3 批量为字幕配音 ​

4.4 音视频字幕合并 ​

第五章：功能总览与支持列表 ​