短视频优化方案
- 语音识别渠道优选
faster-whisper(本地内置) + large-v3模型, 如果中文,可选Qwen-ASR(本地内置)/阿里FunASR+panarform模型或字节语音识别大模型极速版,并选中二次语音识别
高级选项--语音识别区域适当减小最长语音持续时间(秒) [3-6之间] 和最短语音持续时间(毫秒)[1000-3000之间],有利于生成短小的字幕,防止超出屏幕
高级选项--语音识别区域设置合适的二次最长语音持续时间(秒)[1.5-3之间]和二次最短语音持续时间(毫秒)[500-1500之间]
注意持续时间太短识别精度不佳,但有利于保持字幕短小,持续时间较长识别效果更佳,但不利于字幕简短
高级选项--语音识别区域,将中日韩字幕字符数调整为10-15个字符,其他语言字幕字符数条为20-40避免字幕过长超出屏幕如果字幕仍太长,可尝试点击
设置更多参数--修改硬字幕样式--字体大小,减小 1到2 号字体删除标点:
设置更多参数--默认标点改为删除标点, 字幕感官更好些如果未选择
clone音色,也可以尝试选中LLM重新断句并设置DeepSeek的 API KEY翻译渠道选择
DeepSeek或其他AI渠道+最新在线旗舰大模型配音渠道根据选择选用,如果使用了
clone角色,注意一定要取消选中LLM重新断句,并保证高级选项--语音识别区域--最长语音持续时间(秒) [3到10之间]和最短语音持续时间(毫秒)[大于3000],否则克隆效果很差
