理想的翻译视频应具备以下特性:字幕准确、长度适宜,配音音色与原声一致,且字幕、声音、画面完美同步。
本指南将详细介绍视频翻译的四个步骤,并针对每个步骤提供最佳配置建议。
第一步:语音识别
目标: 将视频中的语音转换为对应语言的字幕文件。
对应控制元素: “语音识别”行
最佳配置:
- 选择
faster-whisper(本地)
- 模型选择
large-v2
、large-v3
或large-v3-turbo
- 语音切割模式选择
整体识别
- 选中
语音降噪
(比较耗时) - 选中
保留原始背景音
(比较耗时) - 若视频为中文,则同时选中
中文重新断句
- 选择
注意: 如果没有N卡或未配置CUDA环境未启用CUDA加速,处理速度极慢。显存不够大时可能崩溃。
第二步:字幕翻译
目标: 将第一步生成的字幕文件翻译成目标语言。
对应控制元素: “翻译渠道”行
最佳配置:
- 优先选择: 若具备VPN并了解配置方法,则在菜单 - 翻译设置 - Gemini pro 中使用
gemini-1.5-flash
模型 (Gemini AI 渠道)。 - 次优选择: 若无VPN或不会配置代理,则在“翻译渠道”中选择
OpenAI ChatGPT
,并在菜单 - 翻译设置 - OpenAI ChatGPT 中使用chagpt-4o
系列模型 (需第三方中转)。 - 备选方案: 如果找不到合适的第三方中转,可选择使用 月之暗面、deepseek 等国内 AI。
- 在菜单 - 工具/选项 - 高级选项 中,选中下图所示两项:
GeminiAI使用方法 https://pyvideotrans.com/gemini.html
- 优先选择: 若具备VPN并了解配置方法,则在菜单 - 翻译设置 - Gemini pro 中使用
第三步:配音
目标: 根据翻译后的字幕文件生成配音。
对应控制元素: “配音渠道”行
最佳配置:
- 中文或英文:
F5-TTS(本地)
,配音角色选择clone
- 日韩语:
CosyVoice(本地)
,配音角色选择clone
- 其他语言:
clone-voice(本地)
,配音角色选择clone
- 以上三种渠道均能最大程度保留原视频的情感色彩,
F5-TTS
效果最佳。
需要额外安装对应
F5-TTS/CosyVoice/clone-voice
整合包,见文档 https://pyvideotrans.com/f5tts.html- 中文或英文:
第四步:字幕、配音、画面同步对齐
- 目标: 将字幕、配音和画面进行同步处理。
- 对应控制元素:
同步对齐
行 - 最佳配置:
- 中文翻译成英文时,可设置
配音语速
值 (例如10
或15
) 以加快配音速度,因为英文句子通常较长。 - 选中
视频延长
、配音加速
和视频慢速
三个选项,强制对齐字幕、声音和画面。 - 在菜单 - 工具/选项 - 高级选项 - 字幕声音画面对齐区域,进行如下设置:
音频最大加速倍数
和视频慢速倍数
可根据实际情况调整 (默认值为 3)。
具体每个选项是否选中,设为多大值,建议根据实际视频中发声语速等微调
- 中文翻译成英文时,可设置
输出视频质量控制
- 默认输出为有损压缩。若需无损输出,请在菜单 - 工具 - 高级选项 - 视频输出控制区域,将
视频转码损失控制
设置为 0: - 注意:如果原始视频非 mp4 格式或使用了嵌入式硬字幕,则视频编码转换会造成一定损失,但损失通常微乎其微。 提高视频质量会显著降低处理速度并增加输出视频大小。