优化断句效果，调整语音识别时的字幕时长 | pyVideoTrans官网-开源免费视频翻译配音软件 pyvideotrans.com pyvideotrans github github.com/jianchang512/pyvideotrans

如何获得更佳的断句效果

选择最优模型
- 针对发音语言为中文的视频，首选 字节语音大模型极速版、Qwen-ASR(本地)、阿里FunASR(本地)+paraformer-zh
- 其他语言发音的视频，首选 openai-whisper(本地)+large-v3模型、 faster-whisper(本地)模型+large-v3模型、OpenAI在线识别API
设置合适的断句参数:
- 在菜单--工具--高级选项--语音识别参数区域
  - 最短持续时间/毫秒设为1000(设定字幕最短时长毫秒数)，
  - 最长语音持续时间秒设为3到5(设定字幕最长秒数)
  - 静音分割持续毫秒设为 140 到 600 的数值(越小切分越碎，越大切分句子越长)。
- 如果主界面配音角色中没有选择 clone 进行语音克隆方式配音，可取消语音识别参数区域的合并过短字幕到邻近
- 选择VAD 中默认使用 ten-vad 语句分割模型，可尝试切换为silero模型，同样在语音识别参数处调整
二次识别: 如果选择了配音，可选中主界面右上角的二次识别，将针对配音后的音频再次进行语音转录，生成长度更短的字幕，时长自动应用为最短持续时间/毫秒和最长语音持续时间秒设定数值的一半
选中降噪或分离人声背景声：如果音频背景不干净，可选中主界面右上角的降噪(极慢)或设置更多参数下的分离人声背景(如果两者同时选中，只执行分离人声背景)
如果使用的是 faster-whisper(本地)，也可以尝试在菜单--工具--高级选项--语音识别参数区域，取消选中Whisper预分割音频? 断句效果可能更好，但也可能生成较长的字幕
每次只翻译一个视频，在语音识别完毕后会弹出编辑框，可调整识别出的字幕结果

如何获得更佳的断句效果 ​

如何获得更佳的断句效果