Skip to content

理想的翻译视频应具备以下特性:字幕准确、长度适宜,配音音色与原声一致,且字幕、声音、画面完美同步。

本指南将详细介绍视频翻译的四个步骤,并针对每个步骤提供最佳配置建议。

第一步:语音识别

  • 目标: 将视频中的语音转换为对应语言的字幕文件。

  • 对应控制元素: “语音识别”行
    image.png

  • 非中文最佳配置:

    • 免费 faster-whisper(本地) open-whisper(本地),模型选择 large-v3
    • 收费 OpenAI API接口
  • 中文最佳配置:

    • 免费 阿里FunASR、
    • 收费:阿里百炼ASR 豆包语音识别大模型`
  • 日语最佳

    • 免费: Huggingface_ASR-> kotoba-tech/kotoba-whisper-v2.0reazon-research/japanese-wav2vec2-large-rs35kh
  • 小语种最佳配置:

    • 收费: Gemini大模型识别
    • 收费:openai-api
  • 注意: 如果没有N卡或未配置CUDA环境未启用CUDA加速,使用本地模型时处理速度极慢。显存不够大时可能崩溃。

第二步:字幕翻译

  • 目标: 将第一步生成的字幕文件翻译成目标语言。

  • 对应控制元素: “翻译渠道”行
    image.png

  • 最佳配置:

    • 首选AI渠道(收费): DeepSeek / Gemini / OpenAI ChatGPT / 阿里百炼

第三步:配音

  • 目标: 根据翻译后的字幕文件生成配音。

  • 对应控制元素: “配音渠道”行
    image.png

  • 最佳配置:

    • 免费:Edge-TTS: 免费并支持所有语种
    • 免费:中英日韩:F5-TTS/Index-TTS/GPT-SOVITS/CosyVoice(本地)
    • 收费: 豆包语音 / Qwen-TTS /302.AI /Minimaxi /OpenAI-TTS

    需要额外安装对应 F5-TTS/CosyVoice/clone-voice/GPT-SOVITS整合包,见文档 https://pyvideotrans.com/f5tts.html

第四步:字幕、配音、画面同步对齐

  • 目标: 将字幕、配音和画面进行同步处理。
  • 对应控制元素: 同步对齐
    image.png
  • 最佳配置:
    • 选中二次识别,将在配音完成后对配音文件再次语音识别生成时间轴精准的字幕
    • 中文翻译成英文时,可设置 配音语速 值 (例如 1015) 以加快配音速度,因为英文句子通常较长。
    • 选中 配音加速视频慢速 2个选项,强制对齐字幕、声音和画面。

输出视频质量控制

  • 默认输出为有损压缩。若需无损输出,请在菜单 - 工具 - 高级选项 - 视频输出控制区域,将 视频转码损失控制 设置为 0: image.png
  • 注意:如果原始视频非 mp4 格式或使用了嵌入式硬字幕,则视频编码转换会造成一定损失,但损失通常微乎其微。 提高视频质量会显著降低处理速度并增加输出视频大小。