Skip to content

整体识别、预先分割、均等分割的区别

整体识别:

这是语音识别效果最好的,也是最消耗计算机资源的,如果视频比较大,又使用了 large-v3 模型,可能导致闪退。

在识别时,将整个语音文件传递给模型, 由模型内部使用 VAD 进行切分识别和断句,默认静音分割 200ms,最大语句长度3s,可通过 videotrans/set.ini 中,如下图参数进行微调

image.png

预先分割:

原理和实现同整体分割类似,主要区别就是为了防止视频过大模型也过大时,计算机资源不足,会在传递给模型前,提前按60s切割为小片段。静音分割同样是200ms,最大语句是3s,也是通过 videotrans/set.ini 上图参数进行调节

均等分割:

顾名思义,这是按照固定长度,将语音文件切割为同样长度,再传递给模型,同时 OpenAI 模型下会强制使用均等分割,即在使用OpenAI模型时,不管你选择的是“整体识别”还是“预先分割”,都会强制使用“均等分割”。

均等分割每个片段是10s,静音分割语句间隔是500ms,可通过 videotrans/set.ini 中下图参数调整

image.png

注意:设定了10s,每个字幕大体上都是10s时长,但并非每个配音长度一定是10s,发音时长以及会移除配音末尾的静音。