Skip to content

视频翻译中的配音、字幕、画面同步对齐一直是技术难题。这是因为不同语言的语法结构和语速差异巨大,同一句话翻译成其他语言后,字符数量和语速都会发生变化,导致翻译后的配音时长与原语音时长不一致,从而造成字幕与语音、画面不同步。

具体表现为:原始视频中人物说话已结束,但配音才播放一半;或者原视频中下一句话早已开始,但配音还在说上一句话等。

翻译导致字符数变化

例如,将以下中文句子翻译成英文后,其长度和音节数都发生了显著变化,相应的语音时长也随之改变:

  • 中文: 得国最正莫过于明

  • 英文: There is no country more upright than the Ming Dynasty

  • 中文: 我一生都在研究宇宙

  • 英文: I have been studying the universe all my life

  • 中文: 北京圆明园四只黑天鹅疑被流浪狗咬死

  • 英文: Four black swans in Beijing's Yuanmingyuan Garden suspected of being bitten to death by stray dogs

由此可见,将中文字幕翻译成英文字幕并配音后,配音时长通常会超过原中文语音时长。为了解决这个问题,通常会采用以下几种策略:

几种应对策略

  1. 提高配音语速: 理论上,只要不限制语速上限,总能实现语音时长与字幕时长的匹配。例如,如果原语音时长为1秒,配音时长为3秒,将配音语速提高至300%即可使两者同步。然而,这种方法会使语音听起来急促不自然,并且时快时慢,导致整体效果差强人意。

  2. 精简译文: 通过缩短译文来减少配音时长。例如,将“我一生都在研究宇宙”翻译成更简洁的“Cosmology is my life's work”。 虽然这种方法效果最佳,但需要逐句修改字幕,效率非常低。

  3. 调整字幕间静音: 如果原始语音中两段字幕之间存在静音时间,可以减少或移除部分静音时间来弥合时长差异。例如,如果原始语音中两段字幕之间有2秒静音,而翻译后的第一段字幕比原字幕长1.5秒,那么可以将静音时间缩短至0.5秒,从而使第二段字幕的配音时间与原始语音时间对齐。 然而,并非所有字幕间都有足够的静音时间可以调整,这种方法的适用性有限。

  4. 移除配音前后静音: 通常在配音前后会保留一些静音,移除这些静音可以有效缩短配音时长。

  5. 视频降速播放: 如果单纯加速配音效果不佳,可以考虑结合视频降速播放。例如,某段字幕的原始语音时长为1秒,配音后变为3秒。我们可以将配音时长缩短至2秒(加速1倍),同时将对应视频片段的播放速度降低至一半(时长延长至2秒),从而实现同步。

以上方法各有优缺点,无法完美解决所有问题。要达到最佳同步效果,通常需要人工精细调整,但这与软件自动化的目标相悖。因此,视频翻译软件通常会综合运用以上几种策略,力求达到最佳效果。

在视频翻译软件中的实现

在软件中,这些策略通常通过以下设置来控制:

  • 主界面设置:

image.png “配音语速”设置用于整体加速配音;

“配音加速”设置用于自动增加配音时长以匹配字幕;

“视频慢速”设置用于自动降低视频播放速度以匹配配音时长;

“视频延长”设置用于在配音结束后,定格最后一帧画面直到配音结束。

  • 高级选项设置(菜单栏--工具/选项--高级选项--字幕声音画面对齐):
    image.png

    “移除配音末尾空白” / “移除两条字幕间静音长度” / “移除字幕时长大于配音时长”等选项,允许用户更精细地控制字幕和配音的同步。

    此外,“音频最大加速倍数”(默认为3倍)和“视频慢速倍数”(默认为20倍)限制了加速和减速的程度,防止出现语音失真或视频播放过于缓慢的情况。

  • 音频补偿左移:
    由于底层技术(ffmpeg)的精度限制,即使在视频开始时实现了同步,随着时间的推移,也可能出现配音时长逐渐长于字幕时长的情况。 “音频补偿左移”设置可以将字幕时间轴整体左移,有效缓解这个问题,例如每3分钟消除一个字幕间的空白。

通过灵活运用以上设置,视频翻译软件可以尽可能地自动化处理字幕与配音的同步问题,提高翻译效率。