pyVideoTrans WebUI 使用指南

⚠️ 重要提示
WebUI 版本仅实现了部分功能,主要用于以下场景:
- 云服务器部署(远程访问翻译服务)
- 局域网内部署(服务器与使用机分离)
如需完整功能,请使用桌面客户端(
sp.exe)或源码运行(sp.py)。桌面版支持更多 API 渠道配置、实时交互编辑、批量处理等高级功能。
一、环境准备
1.1 安装依赖
WebUI 依赖 Gradio 包,默认未安装。需要额外安装:
bash
# 在项目根目录下执行
uv sync --extra webui1.2 启动服务
bash
# 基本启动(监听所有网卡,端口 7860)
uv run webui.py
# 指定端口
uv run webui.py --port 8080
# 指定监听地址(仅本机访问)
uv run webui.py --host 127.0.0.1
# 公网访问(创建 Gradio 公共链接)
uv run webui.py --share1.3 访问界面
启动后浏览器会自动打开,也可手动访问:
- 本机:
http://127.0.0.1:7860 - 局域网:
http://<服务器IP>:7860 - 公网(--share 模式):控制台会输出一个
*.gradio.live链接
二、界面功能说明
2.1 文件选择
点击「选择视频/音频文件」区域,选择需要翻译的视频或音频文件。
支持格式:
- 视频:mp4, mkv, avi, mov, webm, mpeg, ogg, mts, ts, wmv, flv
- 音频:wav, mp3, m4a, flac, aac, wma, ogg
2.2 语音识别
| 参数 | 说明 | 默认值 |
|---|---|---|
| 识别渠道 | 选择语音识别引擎 | faster-whisper(本地内置) |
| 模型 | 选择识别模型大小 | large-v3-turbo |
可选渠道(免费/本地内置):
faster-whisper(本地内置)— 推荐,速度快、质量高openai-whisper(本地内置)— 准确度略高,速度较慢Qwen-ASR(本地内置)— 中文效果好FunASR-Chinese(本地内置)— 中文优化Huggingface_ASR(本地内置)— 支持多语言模型
模型说明(faster-whisper / openai-whisper):
tiny— 最快,准确度低base/small— 平衡medium— 较好large-v3— 最佳,需要 8GB+ 显存large-v3-turbo— 推荐,速度与质量兼顾
2.3 字幕翻译
| 参数 | 说明 | 默认值 |
|---|---|---|
| 翻译渠道 | 选择翻译引擎 | Google(免费) |
| 发音语言 | 视频中人物说的语言 | 英语 |
| 目标语言 | 翻译成的目标语言 | 简体中文 |
可选翻译渠道(免费):
Google(免费)— 翻译质量好,需要网络代理Microsoft(免费)— 无需代理,可能限流M2M100(本地)— 本地模型翻译
2.4 字幕配音
| 参数 | 说明 | 默认值 |
|---|---|---|
| 配音渠道 | 选择 TTS 引擎 | Edge-TTS(免费) |
| 配音角色 | 选择发音人 | 随渠道变化 |
可选配音渠道:
Edge-TTS(免费)— 微软免费接口,声音自然Qwen3-TTS(本地内置)— 阿里本地模型MOSS-TTS-Nano(本地内置)— 支持多语言Piper(本地内置)— 轻量级本地 TTSVITS(本地内置)— 中英配音Supertonic3(本地内置)— 多语言ChatterBox(本地内置)— 多语言,效果好gTTS(免费)— Google TTS,基础质量
配音角色:切换配音渠道或目标语言后,角色列表会自动更新。
2.5 对齐与字幕
| 参数 | 说明 | 默认值 |
|---|---|---|
| 配音加速 | 加速过长的配音以匹配原时长 | ✅ 选中 |
| 视频慢速 | 慢放视频以匹配配音时长 | ☐ 不选 |
| 配音语速 | 调整配音语速(-50% ~ +50%) | 0% |
| 音量调整 | 调整配音音量(-95% ~ +100%) | 0% |
| 音调 | 调整配音音调(-100Hz ~ +100Hz) | 0Hz |
| 字幕嵌入类型 | 选择字幕嵌入方式 | 嵌入硬字幕 |
字幕嵌入类型说明:
- 不嵌入字幕 — 仅替换声音
- 嵌入硬字幕 — 字幕永久烧录到画面
- 嵌入软字幕 — 字幕作为独立轨道,播放器可开关
- 嵌入硬字幕(双语) — 中英双语硬字幕
- 嵌入软字幕(双语) — 中英双语软字幕
2.6 更多设置
| 参数 | 说明 | 默认值 |
|---|---|---|
| 降噪 | 清除音频中的背景噪声 | ☐ 不选 |
| 标点处理 | 默认标点 / 恢复标点 / 删除标点 | 默认标点 |
| 分离人声背景声 | 将人声与背景音乐分离 | ☐ 不选 |
| 重新嵌入背景声 | 将分离的背景声重新嵌入 | ✅ 选中 |
| 背景音处理方式 | 背景音截断 / 背景音循环 | 背景音截断 |
| 背景音量 | 调整背景音量(0.0 ~ 2.0) | 0.8 |
| 启用 CUDA 加速 | 使用 GPU 加速(需 NVIDIA 显卡) | ☐ 不选 |
2.7 硬字幕样式编辑
点击「🎨 硬字幕样式编辑」展开面板,可自定义硬字幕的显示样式:
主字幕样式:
- 字体名称、字体大小
- 主颜色、描边颜色、背景颜色
- 粗体、斜体、下划线、删除线
底部字幕样式(双语字幕时的底部文字):
- 字体名称、字体大小
- 主颜色、描边颜色、背景颜色
- 粗体、斜体
全局样式:
- 边框样式(描边 / 不透明背景)
- 描边粗细、阴影
- 水平/垂直缩放、字间距、旋转角度
- 左/右/垂直边距
- 对齐位置(9 宫格选择)
修改后点击「💾 保存样式」,样式将应用于所有嵌入硬字幕的任务。
三、执行翻译
3.1 操作步骤
- 选择视频/音频文件
- 配置语音识别参数
- 配置翻译参数(选择源语言和目标语言)
- 配置配音参数(选择配音渠道和角色)
- 调整对齐、字幕、其他设置
- 点击「🚀 开始执行」
3.2 执行过程
点击执行后:
- 按钮变为「⏳ 执行中...」并禁用,防止重复点击
- 右侧日志区域实时显示各阶段进度
- 完成后按钮恢复为「🚀 开始执行」
3.3 处理阶段
阶段 1/8: 预处理(分离音视频)
阶段 2/8: 语音识别
阶段 3/8: 说话人分离
阶段 4/8: 字幕翻译
阶段 5/8: 配音生成
阶段 6/8: 音画对齐
阶段 7/8: 二次识别
阶段 8/8: 最终合成3.4 输出结果
执行完成后:
- 视频预览区:显示第一个 MP4 文件,可直接在线播放
- 文件下载区:列出所有输出文件(SRT、WAV、TXT 等),点击可下载
输出文件保存在 output/<文件名>/ 目录下。
四、常见问题
Q: 启动时报错 No module named gradio
需要安装 gradio 依赖:
bash
uv sync --extra webuiQ: 选择不可用渠道时弹出警告
这是正常行为。WebUI 仅开放了免费和本地内置渠道,其他需要 API 密钥的渠道暂不可用。选择后会自动回退到上次有效选择。
Q: 处理速度很慢
- 本地识别/配音需要下载模型,首次使用较慢
- 启用 CUDA 加速可显著提升速度(需 NVIDIA 显卡)
- 使用较小的模型(如
base)可加快速度
Q: 如何使用需要 API 密钥的渠道?
WebUI 暂不支持配置 API 密钥。请使用桌面客户端(sp.exe)或源码运行(sp.py)进行配置,配置后 WebUI 可能可以读取已保存的设置。
Q: 如何在服务器上部署?
bash
# 1. 安装依赖
uv sync --extra webui
# 2. 启动服务(监听所有网卡)
uv run webui.py --host 0.0.0.0 --port 7860
# 3. 在客户端浏览器访问 http://<服务器IP>:7860Q: 如何创建公网访问链接?
bash
uv run webui.py --share启动后控制台会输出一个 *.gradio.live 链接,可在任何地方访问(临时链接,重启后失效)。
五、与桌面版功能对比
| 功能 | WebUI | 桌面版 (sp.exe / sp.py) |
|---|---|---|
| 视频翻译(完整流程) | ✅ | ✅ |
| 语音识别(免费/本地渠道) | ✅ | ✅ |
| 语音识别(API 渠道) | ❌ | ✅ |
| 字幕翻译(免费渠道) | ✅ | ✅ |
| 字幕翻译(API 渠道) | ❌ | ✅ |
| 配音(免费/本地渠道) | ✅ | ✅ |
| 配音(API 渠道) | ❌ | ✅ |
| API 密钥配置 | ❌ | ✅ |
| 实时交互编辑字幕 | ❌ | ✅ |
| 批量处理多个文件 | ❌ | ✅ |
| 人声分离设置 | ✅ | ✅ |
| 硬字幕样式编辑 | ✅ | ✅ |
| 视频预览播放 | ✅ | ❌ |
| 远程访问 | ✅ | ❌ |
| 代理配置 | ❌ | ✅ |
| 高级选项(完整) | ❌ | ✅ |
