Skip to content

pyVideoTrans WebUI 使用指南

⚠️ 重要提示

WebUI 版本仅实现了部分功能,主要用于以下场景:

  • 云服务器部署(远程访问翻译服务)
  • 局域网内部署(服务器与使用机分离)

如需完整功能,请使用桌面客户端(sp.exe)或源码运行(sp.py)。

桌面版支持更多 API 渠道配置、实时交互编辑、批量处理等高级功能。


一、环境准备

1.1 安装依赖

WebUI 依赖 Gradio 包,默认未安装。需要额外安装:

bash
# 在项目根目录下执行
uv sync --extra webui

1.2 启动服务

bash
# 基本启动(监听所有网卡,端口 7860)
uv run webui.py

# 指定端口
uv run webui.py --port 8080

# 指定监听地址(仅本机访问)
uv run webui.py --host 127.0.0.1

# 公网访问(创建 Gradio 公共链接)
uv run webui.py --share

1.3 访问界面

启动后浏览器会自动打开,也可手动访问:

  • 本机:http://127.0.0.1:7860
  • 局域网:http://<服务器IP>:7860
  • 公网(--share 模式):控制台会输出一个 *.gradio.live 链接

二、界面功能说明

2.1 文件选择

点击「选择视频/音频文件」区域,选择需要翻译的视频或音频文件。

支持格式:

  • 视频:mp4, mkv, avi, mov, webm, mpeg, ogg, mts, ts, wmv, flv
  • 音频:wav, mp3, m4a, flac, aac, wma, ogg

2.2 语音识别

参数说明默认值
识别渠道选择语音识别引擎faster-whisper(本地内置)
模型选择识别模型大小large-v3-turbo

可选渠道(免费/本地内置):

  • faster-whisper(本地内置) — 推荐,速度快、质量高
  • openai-whisper(本地内置) — 准确度略高,速度较慢
  • Qwen-ASR(本地内置) — 中文效果好
  • FunASR-Chinese(本地内置) — 中文优化
  • Huggingface_ASR(本地内置) — 支持多语言模型

模型说明(faster-whisper / openai-whisper):

  • tiny — 最快,准确度低
  • base / small — 平衡
  • medium — 较好
  • large-v3 — 最佳,需要 8GB+ 显存
  • large-v3-turbo — 推荐,速度与质量兼顾

2.3 字幕翻译

参数说明默认值
翻译渠道选择翻译引擎Google(免费)
发音语言视频中人物说的语言英语
目标语言翻译成的目标语言简体中文

可选翻译渠道(免费):

  • Google(免费) — 翻译质量好,需要网络代理
  • Microsoft(免费) — 无需代理,可能限流
  • M2M100(本地) — 本地模型翻译

2.4 字幕配音

参数说明默认值
配音渠道选择 TTS 引擎Edge-TTS(免费)
配音角色选择发音人随渠道变化

可选配音渠道

  • Edge-TTS(免费) — 微软免费接口,声音自然
  • Qwen3-TTS(本地内置) — 阿里本地模型
  • MOSS-TTS-Nano(本地内置) — 支持多语言
  • Piper(本地内置) — 轻量级本地 TTS
  • VITS(本地内置) — 中英配音
  • Supertonic3(本地内置) — 多语言
  • ChatterBox(本地内置) — 多语言,效果好
  • gTTS(免费) — Google TTS,基础质量

配音角色:切换配音渠道或目标语言后,角色列表会自动更新。

2.5 对齐与字幕

参数说明默认值
配音加速加速过长的配音以匹配原时长✅ 选中
视频慢速慢放视频以匹配配音时长☐ 不选
配音语速调整配音语速(-50% ~ +50%)0%
音量调整调整配音音量(-95% ~ +100%)0%
音调调整配音音调(-100Hz ~ +100Hz)0Hz
字幕嵌入类型选择字幕嵌入方式嵌入硬字幕

字幕嵌入类型说明

  • 不嵌入字幕 — 仅替换声音
  • 嵌入硬字幕 — 字幕永久烧录到画面
  • 嵌入软字幕 — 字幕作为独立轨道,播放器可开关
  • 嵌入硬字幕(双语) — 中英双语硬字幕
  • 嵌入软字幕(双语) — 中英双语软字幕

2.6 更多设置

参数说明默认值
降噪清除音频中的背景噪声☐ 不选
标点处理默认标点 / 恢复标点 / 删除标点默认标点
分离人声背景声将人声与背景音乐分离☐ 不选
重新嵌入背景声将分离的背景声重新嵌入✅ 选中
背景音处理方式背景音截断 / 背景音循环背景音截断
背景音量调整背景音量(0.0 ~ 2.0)0.8
启用 CUDA 加速使用 GPU 加速(需 NVIDIA 显卡)☐ 不选

2.7 硬字幕样式编辑

点击「🎨 硬字幕样式编辑」展开面板,可自定义硬字幕的显示样式:

主字幕样式

  • 字体名称、字体大小
  • 主颜色、描边颜色、背景颜色
  • 粗体、斜体、下划线、删除线

底部字幕样式(双语字幕时的底部文字):

  • 字体名称、字体大小
  • 主颜色、描边颜色、背景颜色
  • 粗体、斜体

全局样式

  • 边框样式(描边 / 不透明背景)
  • 描边粗细、阴影
  • 水平/垂直缩放、字间距、旋转角度
  • 左/右/垂直边距
  • 对齐位置(9 宫格选择)

修改后点击「💾 保存样式」,样式将应用于所有嵌入硬字幕的任务。


三、执行翻译

3.1 操作步骤

  1. 选择视频/音频文件
  2. 配置语音识别参数
  3. 配置翻译参数(选择源语言和目标语言)
  4. 配置配音参数(选择配音渠道和角色)
  5. 调整对齐、字幕、其他设置
  6. 点击「🚀 开始执行」

3.2 执行过程

点击执行后:

  • 按钮变为「⏳ 执行中...」并禁用,防止重复点击
  • 右侧日志区域实时显示各阶段进度
  • 完成后按钮恢复为「🚀 开始执行」

3.3 处理阶段

阶段 1/8: 预处理(分离音视频)
阶段 2/8: 语音识别
阶段 3/8: 说话人分离
阶段 4/8: 字幕翻译
阶段 5/8: 配音生成
阶段 6/8: 音画对齐
阶段 7/8: 二次识别
阶段 8/8: 最终合成

3.4 输出结果

执行完成后:

  • 视频预览区:显示第一个 MP4 文件,可直接在线播放
  • 文件下载区:列出所有输出文件(SRT、WAV、TXT 等),点击可下载

输出文件保存在 output/<文件名>/ 目录下。


四、常见问题

Q: 启动时报错 No module named gradio

需要安装 gradio 依赖:

bash
uv sync --extra webui

Q: 选择不可用渠道时弹出警告

这是正常行为。WebUI 仅开放了免费和本地内置渠道,其他需要 API 密钥的渠道暂不可用。选择后会自动回退到上次有效选择。

Q: 处理速度很慢

  • 本地识别/配音需要下载模型,首次使用较慢
  • 启用 CUDA 加速可显著提升速度(需 NVIDIA 显卡)
  • 使用较小的模型(如 base)可加快速度

Q: 如何使用需要 API 密钥的渠道?

WebUI 暂不支持配置 API 密钥。请使用桌面客户端(sp.exe)或源码运行(sp.py)进行配置,配置后 WebUI 可能可以读取已保存的设置。

Q: 如何在服务器上部署?

bash
# 1. 安装依赖
uv sync --extra webui

# 2. 启动服务(监听所有网卡)
uv run webui.py --host 0.0.0.0 --port 7860

# 3. 在客户端浏览器访问 http://<服务器IP>:7860

Q: 如何创建公网访问链接?

bash
uv run webui.py --share

启动后控制台会输出一个 *.gradio.live 链接,可在任何地方访问(临时链接,重启后失效)。


五、与桌面版功能对比

功能WebUI桌面版 (sp.exe / sp.py)
视频翻译(完整流程)
语音识别(免费/本地渠道)
语音识别(API 渠道)
字幕翻译(免费渠道)
字幕翻译(API 渠道)
配音(免费/本地渠道)
配音(API 渠道)
API 密钥配置
实时交互编辑字幕
批量处理多个文件
人声分离设置
硬字幕样式编辑
视频预览播放
远程访问
代理配置
高级选项(完整)