Skip to content

开源视频翻译工具pyVideoTrans

一键字幕生成+字幕翻译+创建配音+合成 = 带字幕和配音的新视频

视频翻译工具pyVideoTrans界面

pyVideoTrans:是一款将视频从一种语言翻译到另一种语言发音和字幕的开源软件。


  • 视频翻译: 它能够识别原视频中的说话声,并自动生成字幕,然后翻译为目标语言字幕,接着为目标语言字幕配音生成音频,再将配音音频、目标语言字幕同原始视频合并,生成新的视频,从而实现视频翻译。
  • 语音识别转录: 支持批量将音频或视频文件转录为SRT字幕
  • SRT字幕翻译: 可将SRT字幕保持原格式和时间戳的前提下翻译为其他语言
  • 为字幕或文字配音: 为SRT字幕或文字生成配音,支持多种配音渠道
    此外还有 音频视频字幕合并、批量视频音频合并、批量视频字幕合并、人声背景音分离等辅助功能.

302AI大模型集市

最新博客文章


  • Gemini + VAD 混合架构:解决Whisper难以处理的小语种,生成精准SRT字幕

    我们熟知的开源语音识别模型,如Whisper,在处理英语时表现堪称惊艳。但一旦脱离英语的舒适区,其在其他语言上的表现会急剧下降,对于没有海量数据进行专门微调的小语种,转录结果往往差强人意。这使得为泰语、越南语、马来语甚至一些方言制作字幕,变成了一项成本高昂且耗时费力的工作。 这正是Gemini作为游戏规则改变者登场的舞台。 与许多依赖特定语言模型的工具不同,Google Gemini生于一个真正全球化的多模态、多语言...

  • Whisper断句不够好?使用AI大模型重新断句打造完美字幕

    OpenAI的Whisper模型在语音识别领域无疑是革命性的,它能以惊人的准确率将音频转为文字。然而,对于长视频或复杂对话,其自动断句和标点符号功能有时会不尽人意,常常生成不便于阅读的大段文字。 本文将为您提供一个终极解决方案:结合Whisper的字级时间戳功能与大型语言模型(LLM)的强大理解能力,打造一个能智能断句、优化文本并输出结构化数据的全自动字幕处理管道。 我将详细记录从识别、数据准备,到与AI交互的全过程...

  • 如何查看 FFmpeg 是否支持某个编码和硬件加速

    在使用 FFmpeg 处理视频时,我们经常需要知道它到底支持哪些编码格式,以及我们的电脑硬件(如显卡)能否用来加速视频处理。如果能用上硬件加速,处理视频的速度会快很多。这篇文章就用最直接的方式,教你如何查看这些信息。 一、查看所有支持的编解码器 想知道你的 FFmpeg 能处理哪些音视频格式,最简单的办法就是让它自己列出来。 1. 查看全部编解码器 打开你的命令行终端(Windows 里的 CMD 或 PowerSh...

  • FFmpeg硬件加速一次失败的命令(Impossible to convert between the formats supported by the filter)

    对于任何与视频打交道的技术人员来说,FFmpeg 都是一个不可或缺的瑞士军刀。它强大、灵活,但有时也会因其复杂性而令人困惑。特别是当我们试图榨干硬件性能,混合使用硬件加速和软件滤镜时,就很容易掉进一些“坑”里。 本文将从一个真实的 FFmpeg 失败案例出发,深入剖析问题根源,并提供从简单修复到构建跨平台稳健方案的完整指南。 一、问题的起点:一个失败的命令 让我们来看一下这个引发一切的命令和它的错误信息。 用户的意图...

  • 从一个神秘的崩溃代码,看懂 FFmpeg 的“脾气”

    当你在处理视频时,突然弹出一个像 Command [...] returned non-zero exit status 4294967274 这样的错误,第一反应可能是茫然和困惑。这个巨大的数字看起来毫无规律,仿佛是宇宙射线导致的随机错误。然而,在计算机的世界里,几乎没有真正的随机。这个数字,正是解开问题谜团的关键线索。 解码神秘的错误 4294967274 首先,我们需要正确地“翻译”这个错误代码。4294967...

  • 告别CUDA配置噩梦:从一次经典的“CUDA版本不匹配”问题谈起

    对于每一位使用或开发AI工具的朋友来说,NVIDIA CUDA的配置几乎是无法绕开的第一道门槛。它强大,但有时也显得“娇气”。一次小小的疏忽,就可能导致数小时的排错。 今天,我们将通过一个非常真实的安装失败案例,深入剖析其中最常见的一个“陷阱”——NVIDIA驱动版本与CUDA工具包版本不匹配,并以此为契机,全面梳理CUDA配置中的关键注意事项。 案例分析:当 nvcc 和 nvidia-smi “各执一词” 让我们...

  • 从零到一:构建一个 Chatterbox-TTS API 服务

    最近,在研究 Chatterbox-TTS 这个项目,它不仅效果出色,还支持声音克隆(Voice Cloning),这为个性化语音合成打开了想象空间,唯一可惜仅仅支持英语。 为了能更方便地在各种项目中使用它,我决定为其封装一个稳定、高效、易于集成的 API 服务。这篇文章详细记录我从零开始构建这个服务的全过程——从最初的技术选型、API 设计,到踩坑、填坑,再到最终形成一个可供多人使用的健壮系统。 想要一个怎样的 T...

  • 从“能用”到“好用”-编写工业级 Python 启动脚本的 Bat 艺术

    你是否也曾为 Python 项目编写过一个简单的 run.bat,却发现它在别人的电脑上、在带有空格的路径下、或者在需要输出一些特殊提示时,就变得错误百出? 我最近在为我的 Chatterbox TTS 项目创建一个启动脚本时,就一头扎进了 Windows 批处理(Batch Scripting)的“兔子洞”。脚本的核心需求很简单:自动检查并创建 Python 虚拟环境,然后启动应用。然而,这个过程却让我遭遇了批处理...

  • 在windows10 win 11上安装uv.exe(小白适用版)

    在开始安装之前,让我们简单了解一下 uv。uv 是一个用 Rust 编写的超快速 Python 包和项目管理器。非常适合用来安装管理基于python的开源AI项目。 --- 准备工作:选择安装方法 我们提供两种在 Windows 上安装 uv 的方法,您可以根据自己的偏好选择其中一种。 方法一:使用 PowerShell 自动安装 (推荐) - 这是最简单快捷的方法,一条命令即可完成安装和配置。 方法二:手动下载和配...

  • windows上应该安装下载哪个ffmpeg版本?如何设置到环境变量

    > ffmpeg官方下载地址:https://www.gyan.dev/ffmpeg/builds 在下载页面存在多个版本,如下图,他们之间有什么区别、应该下载哪个呢? 各版本详细解释 1. ffmpeg-release-essentials开头的 (基础版) 包含内容: ffmpeg.exe (主程序,用于音视频转换、处理) ffprobe.exe (用于查看媒体文件详细信息) ffplay.exe (一个简单的播...