Skip to content

如何获得更佳的断句效果

  1. 选择最优模型

    • 针对发音语言为中文的视频,首选 字节语音大模型极速版Qwen-ASR(本地)阿里FunASR(本地)+paraformer-zh
    • 其他语言发音的视频,首选 openai-whisper(本地)+large-v3模型、 faster-whisper(本地)模型+large-v3模型、OpenAI在线识别API
  2. 设置合适的断句参数:

    • 菜单--工具--高级选项--语音识别参数区域

      • 最短持续时间/毫秒设为1000(设定字幕最短时长毫秒数),
      • 最长语音持续时间秒设为3到5(设定字幕最长秒数)
      • 静音分割持续毫秒设为 140 到 600 的数值(越小切分越碎,越大切分句子越长)。
    • 如果主界面配音角色中没有选择 clone 进行语音克隆方式配音,可取消语音识别参数区域的合并过短字幕到邻近

    • 选择VAD 中默认使用 ten-vad 语句分割模型,可尝试切换为silero模型,同样在语音识别参数处调整

  3. 二次识别: 如果选择了配音,可选中主界面右上角的二次识别,将针对配音后的音频再次进行语音转录,生成长度更短的字幕,时长自动应用为最短持续时间/毫秒最长语音持续时间秒设定数值的一半

  4. 选中降噪分离人声背景声: 如果音频背景不干净,可选中主界面右上角的降噪(极慢)或设置更多参数下的分离人声背景(如果两者同时选中,只执行分离人声背景)

  5. 如果使用的是 faster-whisper(本地),也可以尝试在菜单--工具--高级选项--语音识别参数区域,取消选中Whisper预分割音频? 断句效果可能更好,但也可能生成较长的字幕

  6. 每次只翻译一个视频,在语音识别完毕后会弹出编辑框,可调整识别出的字幕结果