Skip to content

短视频优化方案

短视频(如抖音、快手、YouTube Shorts 等)与长视频的翻译需求有所不同。短视频字幕需要更短小精悍,以适应竖屏小屏幕。以下是针对短视频的专项优化方案。


核心原则

短视频字幕的关键是短小

  • 每条字幕字符数要少
  • 字幕持续时间要短
  • 字体要适当缩小

优化步骤

1. 选择合适的识别渠道

推荐使用 faster-whisper(本地内置) + large-v3 模型,并选中 二次语音识别

高级选项 -> 语音识别区域 中调整参数:

  • 最长语音持续时间(秒):设为 3-6(较短的值有利于生成短字幕)
  • 最短语音持续时间(毫秒):设为 1000-3000(较短的值有利于保持字幕简短)

⚠️ 持续时间太短识别精度不佳,但有利于保持字幕短小;持续时间较长识别效果更佳,但不利于字幕简短。

2. 控制字幕字符数

高级选项 -> 语音识别区域 中:

  • 中日韩字幕字符数:调整为 10-15 个字符
  • 其他语言字幕字符数:调整为 20-40 个字符

避免字幕过长超出屏幕。

3. 减小字体

如果字幕仍然太长,可以点击 设置更多参数 -> 修改硬字幕样式 -> 字体大小,适当减小 1-2 号字体。

4. 删除标点

设置更多参数 -> 默认标点 中选择「删除标点」,字幕感官会更好。

5. 使用 LLM 重新断句(可选)

如果未选择 clone 音色,可以尝试选中 LLM重新断句 并设置 DeepSeek 的 API KEY。

注意:使用 clone 角色时,不建议使用 LLM 重新断句,因为会打乱时间轴,导致克隆效果很差。

6. 翻译渠道

翻译渠道选择 DeepSeek 或其他 AI 渠道 + 最新在线旗舰大模型。

7. 配音渠道

根据需求选择配音渠道。如果使用了 clone 角色:

  • 一定取消选中 LLM重新断句
  • 保证 高级选项 -> 语音识别区域 中:
    • 最长语音持续时间:3-10 秒
    • 最短语音持续毫秒:大于 3000

效果对比

优化前优化后
字幕过长,超出屏幕字幕短小,适合竖屏
字体过大,遮挡画面字体适中,不遮挡
标点符号干扰阅读删除标点,简洁明了
字幕持续时间长持续时间短,节奏紧凑

相关文档