短视频优化方案

短视频（如抖音、快手、YouTube Shorts 等）与长视频的翻译需求有所不同。短视频字幕需要更短小精悍，以适应竖屏小屏幕。以下是针对短视频的专项优化方案。

核心原则

短视频字幕的关键是短小：

每条字幕字符数要少
字幕持续时间要短
字体要适当缩小

优化步骤

1. 选择合适的识别渠道

推荐使用 faster-whisper(本地内置) + large-v3 模型，并选中 二次语音识别。

在 高级选项 -> 语音识别区域 中调整参数：

最长语音持续时间(秒)：设为 3-6（较短的值有利于生成短字幕）
最短语音持续时间(毫秒)：设为 1000-3000（较短的值有利于保持字幕简短）

⚠️ 持续时间太短识别精度不佳，但有利于保持字幕短小；持续时间较长识别效果更佳，但不利于字幕简短。

2. 控制字幕字符数

在 高级选项 -> 语音识别区域 中：

中日韩字幕字符数：调整为 10-15 个字符
其他语言字幕字符数：调整为 20-40 个字符

避免字幕过长超出屏幕。

3. 减小字体

如果字幕仍然太长，可以点击 设置更多参数 -> 修改硬字幕样式 -> 字体大小，适当减小 1-2 号字体。

4. 删除标点

在 设置更多参数 -> 默认标点 中选择「删除标点」，字幕感官会更好。

5. 使用 LLM 重新断句（可选）

如果未选择 clone 音色，可以尝试选中 LLM重新断句 并设置 DeepSeek 的 API KEY。

注意：使用 clone 角色时，不建议使用 LLM 重新断句，因为会打乱时间轴，导致克隆效果很差。

6. 翻译渠道

翻译渠道选择 DeepSeek 或其他 AI 渠道 + 最新在线旗舰大模型。

7. 配音渠道

根据需求选择配音渠道。如果使用了 clone 角色：

一定取消选中 LLM重新断句
保证 高级选项 -> 语音识别区域 中：
- 最长语音持续时间：3-10 秒
- 最短语音持续毫秒：大于 3000

效果对比

优化前	优化后
字幕过长，超出屏幕	字幕短小，适合竖屏
字体过大，遮挡画面	字体适中，不遮挡
标点符号干扰阅读	删除标点，简洁明了
字幕持续时间长	持续时间短，节奏紧凑

短视频优化方案 ​

核心原则 ​

优化步骤 ​

1. 选择合适的识别渠道 ​

2. 控制字幕字符数 ​

3. 减小字体 ​

4. 删除标点 ​

5. 使用 LLM 重新断句（可选） ​

6. 翻译渠道 ​

7. 配音渠道 ​

效果对比 ​

相关文档 ​