语音识别中的 VAD 参数调整

在视频翻译的语音识别阶段，生成的字幕有时可能过长（几十秒甚至几分钟），有时又过短（不到 1 秒）。通过调整 VAD（语音活动检测）参数，可以优化这些问题，使字幕更符合实际语音内容。

什么是 VAD？

VAD（Voice Activity Detection，语音活动检测）是一个用于识别音频中语音部分的工具，它可以将语音与静音或噪音分离。与 Whisper 等语音识别工具结合使用时，VAD 能在识别前后检测和分割语音片段，从而提升识别效果。

当前版本默认使用 silero 作为 VAD 模型。你可以在「菜单 → 工具 → 高级选项」中切换为 ten-vad。

VAD 参数设置界面

参数	说明	默认值
采样温度	控制识别的随机性	—
热词	告诉模型哪些词可能出现，以英文逗号分隔	空
重复惩罚	增大该值有利于减少重复	—
文本压缩率	减小该值有利于减少重复	—
Whisper 预分割音频	是否提前将音频切割为句子片段后再发给 Whisper 模型识别	否

💡 使用 clone 配音角色时：请选中「Whisper 预分割音频」，并将最短语音设为 3000，最大语音设为 10，以确保参考音频时长在 3-10 秒之间，提高克隆可靠性。

在「热词」栏中填写专有名词，以英文逗号分隔。例如：北京,清华大学,ChatGPT