Skip to content

视频翻译软件的核心原理是:根据视频中的说话声音识别出文字,然后将文字翻译为目标语言文字,再将翻译后的文字进行配音,最后将配音、文字嵌入视频。

可以看到第一步就是从视频中的说话声识别出文字,识别精确度直接影响到后续翻译和配音。

openai 模式

该模式是OpenAI官方开源的whisper模型,相比faster速度较慢,准确度一致。

image.png

右侧模型选择方式一样,从tinylarge-v3同样消耗计算机资源越来越多,精确度越来越高。

注意: faster模式和openai模式虽然模型名大多相同,但模型不通用,请到 https://pyvideotrans.com/model.html 下载用于 openai模式的模型