如何获得更佳的断句效果
选择最优模型
- 针对发音语言为中文的视频,首选
字节语音大模型极速版、Qwen-ASR(本地)、阿里FunASR(本地)+paraformer-zh - 其他语言发音的视频,首选
openai-whisper(本地)+large-v3模型、faster-whisper(本地)模型+large-v3模型、OpenAI在线识别API
- 针对发音语言为中文的视频,首选
设置合适的断句参数:
在
菜单--工具--高级选项--语音识别参数区域最短持续时间/毫秒设为1000(设定字幕最短时长毫秒数),最长语音持续时间秒设为3到5(设定字幕最长秒数)静音分割持续毫秒设为 140 到 600 的数值(越小切分越碎,越大切分句子越长)。
如果主界面配音角色中没有选择
clone进行语音克隆方式配音,可取消语音识别参数区域的合并过短字幕到邻近选择VAD中默认使用ten-vad语句分割模型,可尝试切换为silero模型,同样在语音识别参数处调整
二次识别: 如果选择了配音,可选中主界面右上角的
二次识别,将针对配音后的音频再次进行语音转录,生成长度更短的字幕,时长自动应用为最短持续时间/毫秒和最长语音持续时间秒设定数值的一半选中
降噪或分离人声背景声: 如果音频背景不干净,可选中主界面右上角的降噪(极慢)或设置更多参数下的分离人声背景(如果两者同时选中,只执行分离人声背景)如果使用的是
faster-whisper(本地),也可以尝试在菜单--工具--高级选项--语音识别参数区域,取消选中Whisper预分割音频?断句效果可能更好,但也可能生成较长的字幕每次只翻译一个视频,在语音识别完毕后会弹出编辑框,可调整识别出的字幕结果
