Skip to content

pyVideoTrans 命令行工具使用手册

本文档详细说明了 pyVideoTrans 视频翻译工具的命令行(CLI)使用方法。该工具支持语音转录(STT)、文字配音(TTS)、字幕翻译(STS)和全自动视频翻译(VTV)四大核心功能。


⚠️ 重要提示:开始之前

  1. 运行方式:本文档基于 uv run cli.py 方式运行。
  2. 文件路径:参数 --name 必须使用文件的绝对路径
  3. 路径引用:如果路径中包含空格,必须使用英文双引号 "" 包裹路径。
    • ✅ 正确:--name "C:\My Videos\test file.mp4"
    • ❌ 错误:--name C:\My Videos\test file.mp4
  4. 获取配音角色:请在软件ui界面中选择对应的配音渠道和目标语言后,查看对应可用的发音角色,限于篇幅和可读性,这里不一一展示

1. 语音转录 (STT)

从视频或音频文件中提取语音并生成 SRT 字幕文件。

基本命令格式

bash
uv run cli.py --task stt --name "文件绝对路径" [可选参数]

参数详解

参数名类型必选默认值说明
--taskstrstt任务类型标识
--namestr-音视频文件的绝对路径
--recogn_typeint0语音识别渠道ID(见附录1
--model_namestrtiny模型大小(tiny, small, base, medium, large-v2 等,请在软件ui中根据所选语音识别渠道,查看可用的具体模型名称)
--detect_languagestrauto源音频语言代码,默认自动检测
--cudaboolFalse加上此标记启用 GPU (CUDA) 加速
--remove_noiseboolFalse加上此标记启用音频降噪
--enable_diarizboolFalse加上此标记启用说话人识别(区分不同角色)
--nums_diarizint-1指定说话人数量(仅在启用说话人识别时有效)
--fix_puncboolFalse加上此标记尝试恢复标点符号

使用示例

使用 Faster-Whisper (tiny模型) 进行转录:

bash
uv run cli.py --task stt --name "D:\videos\demo.mp4" --recogn_type 0 --model_name tiny

使用 GPU 加速并指定源语言为中文:

bash
uv run cli.py --task stt --name "D:\videos\demo.mp4" --detect_language zh-cn --cuda

2. 文字配音 (TTS)

将 SRT 字幕文件或文本转换为语音音频。

基本命令格式

bash
uv run cli.py --task tts --name "SRT文件绝对路径" --voice_role "音色名" [可选参数]

参数详解

参数名类型必选默认值说明
--taskstrtts任务类型标识
--namestr-SRT 字幕文件的绝对路径
--tts_typeint0配音渠道ID(见附录2
--voice_rolestr-音色名称 (请在软件ui中根据所选配音渠道,查看可用的具体角色名称)
--voice_ratestr+0%语速调整 (如 +10%, -10%)
--volumestr+0%音量调整
--pitchstr+0Hz音调调整
--target_language_codestr-目标语言代码(部分TTS引擎需要)
--voice_autorateboolFalse自动加速音频以对齐字幕时间轴
--align_sub_audioboolFalse强制修改字幕时间轴以适应音频长度

使用示例

使用 Edge-TTS (中文男声) 进行配音:

bash
uv run cli.py --task tts --name "C:\subs\movie.srt" --tts_type 0 --voice_role "zh-CN-YunyangNeural" --target_language_code zh-cn

3. 字幕翻译 (STS)

将 SRT 字幕文件翻译为另一种语言。

基本命令格式

bash
uv run cli.py --task sts --name "SRT文件绝对路径" --target_language_code "目标语言" [可选参数]

参数详解

参数名类型必选默认值说明
--taskstrsts任务类型标识
--namestr-SRT 字幕文件的绝对路径
--translate_typeint0翻译渠道ID(见附录3
--target_language_codestr-目标语言代码(见附录4
--source_language_codestrauto原始语言代码

使用示例

将字幕翻译为英文(使用 Google 翻译):

bash
uv run cli.py --task sts --name "D:\subs\source.srt" --target_language_code en --translate_type 0

4. 视频翻译 (VTV)

全流程处理:识别 -> 翻译 -> 配音 -> 合成,直接生成翻译后的视频。

基本命令格式

bash
uv run cli.py --task vtv --name "视频路径" --source_language_code "源语言" --target_language_code "目标语言" [可选参数]

参数详解

VTV 模式集成了上述所有功能的参数,以下列出不在上述内的其他参数。

参数名类型必选默认值说明
--taskstrvtv任务类型标识
--namestr-视频文件的绝对路径
--source_language_codestr-发音语言 (VTV模式不可设为auto)
--target_language_codestr-目标语言
--subtitle_typeint1字幕嵌入方式 (见下方说明)
--video_autorateboolFalse自动慢速处理视频画面以对齐配音
--is_separateboolFalse是否分离人声与背景声 (保留背景音)
--recogn2passboolFalse是否进行二次语音识别 (提高准确率)
--clear_cacheboolTrue是否清理临时文件 (默认清理)
--no-clear-cacheflag-加上此标记则清理缓存

关于 --subtitle_type 的值:

  • 0: 不嵌入字幕
  • 1: 硬字幕 (默认)
  • 2: 软字幕
  • 3: 硬双语字幕
  • 4: 软双语字幕

使用示例

中译英视频,保留背景音,嵌入硬字幕,使用 GPU 加速:

bash
uv run cli.py --task vtv --name "E:\movies\clip.mp4" --source_language_code zh-cn --target_language_code en --voice_role "en-US-GuyNeural" --is_separate --cuda --subtitle_type 1

附录:渠道与代码代码对照表

附录1: 语音识别渠道列表 (--recogn_type)

在软件ui中,对应着具体的语音识别渠道顺序号,从0开始

ID渠道名称备注
0faster-whisper本地 (推荐,速度快)
1openai-whisper本地 (官方原版)
2阿里FunASR本地
3Huggingface_ASR
4OpenAI语音识别API需要API Key
5Gemini大模型识别
6阿里百炼 Qwen3-ASR
7字节语音大模型极速版
8智谱AI GLM-ASR
9Deepgram.com
10字节音视频字幕生成
11Parakeet-tdt
12Whisper.cpp
13Faster-Whisper-XXL.exe
14WhisperX
15302.AI
16ElevenLabs.io
17Google识别API免费
18STT语音识别本地
19自定义识别API

支持的模型名称,仅适用于 faster-whisper和openai-whisper渠道,其他渠道请查看软件 (--model_name): tiny, small, base, medium, large-v3-turbo, large-v1, large-v2, large-v3

附录2: 配音渠道列表 (--tts_type)

在软件ui中,对应着具体的配音渠道顺序号,从0开始

选择目标语言和配音渠道后,将在软件ui中显示可用的具体角色名称

ID渠道名称备注
0Edge-TTS免费 (推荐)
1piper TTS本地
2VITS本地
3Qwen3 TTS
4豆包语音合成模型2.0
5字节语音合成
6智谱AI GLM-TTS
7GPT-SoVITS本地
8F5-TTS本地
9Index TTS本地
10CosyVoice本地
11Supertonic本地
12Minimaxi TTS
13OpenAI TTS
14302.AI
15Elevenlabs.io
16Azure-TTS
17Gemini TTS
18VoxCPM TTS本地
19ChatterBox TTS本地
20ChatTTS本地
21Spark TTS本地
22Dia TTS本地
23kokoro TTS本地
24clone-voice本地
25Fish TTS本地
26Google TTS免费
27自定义TTS API

附录3: 翻译渠道列表 (--translate_type)

在软件ui中,对应着具体的翻译渠道顺序号,从0开始

ID渠道名称备注
0Google免费 (默认)
1微软免费
2M2M100本地
3OpenAI ChatGPT
4DeepSeek
5Gemini AI
6智谱AI
7AzureGPT AI
8兼容AI/本地模型
9OpenRouter
10硅基流动
11302.AI
12阿里百炼
13字节大模型
14腾讯翻译
15百度翻译
16DeepL
17DeepLx
18阿里机器翻译
19OTT本地
20LibreTranslate本地
21MyMemory API免费
22自定义翻译API

附录4: 语言代码列表

适用于 --source_language_code--target_language_code

代码语言代码语言代码语言
en英语zh-cn简体中文zh-tw繁体中文
fr法语de德语ja日语
ko韩语ru俄语es西班牙语
th泰语it意大利语pt葡萄牙语
vi越南语ar阿拉伯语tr土耳其语
hi印地语hu匈牙利语uk乌克兰语
id印尼语ms马来语kk哈萨克语
cs捷克语pl波兰语nl荷兰语
sv瑞典语he希伯来语bn孟加拉语
fa波斯语fil菲律宾语ur乌尔都语
yue粤语