Skip to content

这是一款功能强大的开源视频翻译软件,致力于将视频从一种语言的语音和字幕,无缝转换到另一种语言。无论您是内容创作者、教育工作者还是语言学习者,pyVideoTrans 都能为您提供一站式的解决方案,打破语言障碍。

核心功能一览

  • 全自动视频翻译:智能识别视频中的语音,生成源语言字幕,翻译为目标语言,再进行配音,最后将新的音频与字幕合成到原视频中,一气呵成。

  • 语音识别与转录:批量将视频或音频文件中的人类说话声,精准转录为带时间轴的 SRT 字幕文件。

  • SRT 字幕文件翻译:支持批量翻译 SRT 字幕文件,保留原有时间码和格式,并提供多种双语字幕样式。

  • 文字/字幕转语音 (TTS):利用多种先进的 TTS 渠道,为您的文本或 SRT 字幕文件生成高质量、自然流畅的配音。

  • 实用工具集:内置视频/音频/字幕合并、人声与背景音分离等多种辅助工具,满足您在视频处理中的各种精细化需求。

软件工作原理

在开始之前,请务必理解本软件的核心工作方式:

pyVideoTrans 通过识别和处理视频中的【人类说话的声音】来进行工作,它与视频画面中是否已有字幕(硬字幕)完全无关。

  • 可以处理:任何包含人类语音的视频,无论它有没有内嵌字幕。
  • 无法处理:只有背景音乐和硬字幕,但没有任何人说话的视频。本软件也无法直接提取视频画面中的硬字幕。

下载与安装

1.1 Windows 用户 (预打包版)

我们为 Windows 10/11 用户提供了开箱即用的预打包版本,无需繁琐配置。

点击去下载windows预打包版,解压即用

解压注意事项

错误地解压是导致软件无法启动的最常见原因,请严格遵守以下规则:

  1. 禁止使用管理员权限路径不要解压到 C:/Program FilesC:/Windows桌面 等系统文件夹。
  2. 路径必须为纯英文:解压路径不能包含任何中文、空格或特殊符号
  3. 推荐做法:在 D 盘或 E 盘等非系统盘,新建一个纯英文或数字的文件夹(例如 D:/videotrans),然后将压缩包解压到此文件夹内。

解压路径示例

启动软件

解压完成后,进入文件夹,找到 sp.exe 文件,双击运行即可。 sp.exe

软件首次启动时需要加载较多模块,可能需要几十秒时间,请耐心等待。

1.2 MacOS / Linux 用户 (源码部署)

对于 MacOS 和 Linux 用户,需要通过源码方式进行部署。


软件界面与核心功能

软件启动后,您会看到如下主界面。

  • 左侧功能区:切换软件的主要功能模块,如自定义视频翻译音视频转字幕等。
  • 顶部菜单栏:进行全局配置。
    • 翻译设置:配置各翻译渠道(如OpenAI , Azure )的API Key和相关参数。

    • TTS设置:配置各配音渠道(如OpenAI TTS, Azure TTS)的API Key和相关参数。

    • 语音识别设置:配置语音识别渠道(如OpenAI API, 阿里ASR)的API Key和参数。

    • 工具/选项:包含各种高级选项和辅助工具,如字幕格式调整、视频合并、人声分离等。

    • 帮助/关于:查看软件版本信息、文档和社区链接。

  • 右侧工作区:当前功能模块的具体操作区域。

快速入门 - 视频翻译全流程

这是软件最核心的功能。我们将一步步带您完成一个完整的视频翻译任务。默认打开的即是 自定义视频翻译 模块。

第 1 步:选择视频和输出设置

  • 选择要处理的视频:点击按钮,选择一个或多个视频文件(按住 Ctrl 可多选)。
  • 文件夹:勾选此项可批量处理整个文件夹内的所有视频。
  • 保存到..:设置翻译后视频的输出目录。默认为原视频目录下的 _video_out 文件夹。
  • 清理已生成:若需对同一视频重新处理(而不是使用缓存),请勾选此项。
  • 仅保存视频:勾选后,处理完成后只保留最终的 MP4 视频,自动删除字幕、音频等中间文件。
  • 转移字幕位置:若原始视频有硬字幕,勾选此项可尝试将新字幕放置在不同位置以避免重叠。
  • 完成后关机:处理完所有任务后自动关闭计算机,适合大批量、长时间任务。

第 2 步:配置翻译和配音

  • 翻译渠道:选择用于翻译字幕的引擎。
    • 免费Google(免费)(需代理)、微软翻译(无需代理)。
    • 高质量 (需配置API Key)OpenAIGeminiDeepL 等。API Key在顶部菜单栏相应位置设置。
  • 发音语言必须准确选择原始视频中人物说话的语言。
  • 目标语言:您希望翻译成的目标语言。
  • 术语表: 勾选后,可使用预设的术语表进行翻译,确保专业词汇的准确性。
  • 网络代理: 如果使用需要代理的渠道(如Google, OpenAI),请在此填写您的代理地址和端口 (如 http://127.0.0.1:10808)。
  • 配音渠道:选择生成配音的引擎。Edge-TTS 是默认选项,免费且效果出色
  • 配音角色必须先选定目标语言,才能加载并选择对应的音色(男声/女声等)。
  • 试听配音:点击可预览当前角色的声音效果。
  • 配音语速/音量/音调:按需调整,数值代表在默认基础上的百分比增减。

第 3 步:配置语音识别

这是将视频语音转为文字字幕的关键一步,直接影响后续所有流程的质量。

  • 语音识别:推荐使用默认的 faster-whisper(本地),它免费、在本地运行且效果出色。
  • 选择模型:模型越大,识别越准,但速度越慢、资源消耗也越多。
    • 入门:tiny / medium
    • 推荐large-v3-turbo (效果佳速度快,强烈推荐配合NVIDIA显卡及CUDA加速)。
  • 语音切割模式:建议使用默认的 整体识别
  • LLM重新断句: 勾选后,将使用大语言模型对识别出的文字进行智能断句和标点优化,显著提升字幕可读性。
  • 降噪: 勾选后,将对音频进行降噪处理,提高在嘈杂环境下的语音识别准确率。

第 4 步:设置同步与字幕

由于不同语言语速不同,翻译后的配音时长可能与原视频不符,这里可以进行调整。

  • 同步对齐
    • 配音加速:当配音比视频长时,加速配音以匹配视频时长(常用)。
    • 视频慢速:当配音比视频长时,放慢视频以匹配配音时长。
    • 视频延长:当配音比视频长时,在视频结尾添加静止帧以匹配配音时长。
  • 字幕嵌入
    • 不嵌入字幕:只替换声音,不添加任何字幕。
    • 嵌入硬字幕:将字幕永久“烧录”到画面中,无法关闭。
    • 嵌入软字幕:将字幕作为独立轨道封装进视频,播放器可选择开关。
    • (双):同时嵌入源语言和目标语言的双语字幕。

第 5 步:处理背景音

  • 保留原始背景音:勾选此项,软件会尝试分离原视频的人声和背景音,并将背景音保留在最终视频中。注意:此功能会显著增加处理时间,但能极大提升成品质量
  • 添加额外背景音频:您也可以选择一个自己的音频文件作为新的背景音乐。
  • 背景音量: 调整背景音的音量,小于1为减小,大于1为增大。

第 6 步:开始执行

  • CUDA加速:如果您有 NVIDIA 显卡并正确安装了 CUDA 环境,请务必勾选此项,它能将语音识别的速度提升数倍甚至数十倍。

一切设置完毕后,点击【开始】按钮。

执行中

软件会开始工作。如果只处理一个视频,在字幕生成和翻译后会暂停,让您有机会在右侧文本框中校对和修改字幕。确认无误后再次点击执行即可继续。

第 7 步:查看成果

任务完成后,点击底部进度条区域即可打开输出文件夹。您会看到最终的 MP4 文件以及过程中生成的 SRT 字幕、配音文件等素材。


探索其他实用功能

除了核心的视频翻译,pyVideoTrans 还提供了多个独立的强大功能。

4.1 音视频转字幕/语音转录/语音识别

批量将视频或音频文件转录为 SRT 字幕。只需拖入文件,设定好原始语言和识别模型,即可开始。支持 LLM重新断句降噪 等高级功能。

4.2 批量翻译 SRT 字幕

如果您已有 SRT 字幕文件,此功能可以帮您快速翻译成其他语言,并保持时间轴不变。还支持选择 单语字幕目标语言在上(双)目标语言在下(双) 等多种输出格式。

4.3 批量为字幕配音

将您的 SRT 文件或纯文本,通过选择的 TTS 引擎,批量合成为配音文件(如 WAV 或 MP3)。支持精细调整语速、音量和音调。

4.4 音视频字幕合并

这是一个实用的后期工具。当您分别拥有视频、配音、字幕文件时,可用它将三者完美地合并成一个最终视频文件,并支持自定义字幕样式。


第五章:功能总览与支持列表

pyVideoTrans 的强大之处在于其高度的可扩展性和对多种服务的支持。

  • 语音识别 (STT) 支持

    • 本地离线:faster-whisper, openai-whisper
    • 在线 API:OpenAI SpeechToText, GoogleSpeech, 阿里 FunASR, 豆包模型, 以及自定义 API。
  • 字幕翻译支持

    • 微软翻译, Google 翻译, 百度翻译, 腾讯翻译, DeepL, DeepLX, 字节火山
    • 大语言模型:ChatGPT, AzureAI, Gemini, 其他兼容 OpenAI 的 AI 大模型及本地大模型
    • 离线翻译:OTT

  • 语音合成 (TTS) 支持

    • Microsoft Edge TTS, Google TTS, Azure AI TTS, OpenAI TTS, Elevenlabs
    • 声音克隆/本地:GPT-SoVITS, clone-voice, ChatTTS, Fish TTS, CosyVoice, F5-TTS, KokoroTTS
    • 自定义 TTS 服务器 API
  • 支持的语言

    • 中文简繁、英语、韩语、日语、俄语、法语、德语、意大利语、西班牙语、葡萄牙语、越南语、泰国语、阿拉伯语、土耳其语、匈牙利语、印度语、乌克兰语、哈萨克语、印尼语、马来语、捷克语、波兰语、荷兰语、瑞典语、菲律宾语、芬兰语、波斯语等,并支持自动检测。


感谢您选择 pyVideoTrans,希望这款软件能成为您跨越语言鸿沟的得力助手!