Skip to content

语音识别中的 VAD 参数调整

在视频翻译的语音识别阶段,生成的字幕有时可能过长(几十秒甚至几分钟),有时又过短(不到 1 秒)。通过调整 VAD(语音活动检测)参数,可以优化这些问题,使字幕更符合实际语音内容。


什么是 VAD?

VAD(Voice Activity Detection,语音活动检测)是一个用于识别音频中语音部分的工具,它可以将语音与静音或噪音分离。与 Whisper 等语音识别工具结合使用时,VAD 能在识别前后检测和分割语音片段,从而提升识别效果。

当前版本默认使用 silero 作为 VAD 模型。你可以在「菜单 → 工具 → 高级选项」中切换为 ten-vad


参数详解及调整建议

VAD 参数设置界面

核心参数

参数说明默认值调整建议
选择 VAD选择要使用的 VAD 模型silero一般保持默认即可
语音阈值音频片段被认为是语音的最低概率,越小越灵敏0.5降低可提高灵敏度,但可能误将噪声视为语音
最长语音持续秒数超过此时长强制分割5需要短字幕可设为 3-4,需要长字幕可设为 8-10
最短语音持续毫秒小于此值尝试合并到相邻字幕2000需要短字幕可设为 1000-1500
合并过短字幕到邻近选中后才会合并短字幕一般建议选中
静音分割持续毫秒只在大于此值的静音处分割140增大可减少分割次数
非语音阈值减小可降低幻觉但可能遗漏文字一般保持默认

高级参数

参数说明默认值
采样温度控制识别的随机性
热词告诉模型哪些词可能出现,以英文逗号分隔
重复惩罚增大该值有利于减少重复
文本压缩率减小该值有利于减少重复
Whisper 预分割音频是否提前将音频切割为句子片段后再发给 Whisper 模型识别

💡 使用 clone 配音角色时:请选中「Whisper 预分割音频」,并将最短语音设为 3000,最大语音设为 10,以确保参考音频时长在 3-10 秒之间,提高克隆可靠性。


常见问题

Q: 字幕太长(几十秒),如何缩短?

  1. 减小「最长语音持续秒数」(如设为 3-4)
  2. 选中「合并过短字幕到邻近」
  3. 减小「静音分割持续毫秒」

Q: 字幕太短(不到 1 秒),如何加长?

  1. 增大「最长语音持续秒数」(如设为 8-10)
  2. 增大「最短语音持续毫秒」(如设为 3000-4000)
  3. 取消「合并过短字幕到邻近」

Q: 字幕中有重复内容怎么办?

  1. 增大「重复惩罚」值
  2. 减小「文本压缩率」
  3. 增大「采样温度」(但过高可能导致幻觉)

Q: 如何让模型识别特定的专有名词?

在「热词」栏中填写专有名词,以英文逗号分隔。例如:北京,清华大学,ChatGPT

相关文档