Skip to content

说话人识别/分离

从 v3.74 版本后,语音识别渠道中的 阿里FunASR中文/Deepgram.com/Gemini大模型识别 这3个渠道支持说话人识别,即音频转写后,会在字幕前方标记出说话人。

1
00:00:01,920 --> 00:00:06,800
[spk0]五老星系中发现了有机分子,我们离第三类接触,还有多人。

2
00:00:07,260 --> 00:00:12,940
[spk1]微博真是展开拍摄任务已经近来中年,最近也传过来许多过去难以拍摄到的照片。

3
00:00:13,460 --> 00:00:21,380
[spk0]六月初,天威学家在自然期看上发表了这张照片,在蓝色核心外,还让这一圈橘黄色的光芒。

如上字幕中的[spk0]表示这是第1个说话人,[spk1]这是第2个说话人,以此类推。

注意:

  • 阿里FunASR中文:仅支持识别中文发音
  • Deepgram.com: 支持多语言,但中文效果不佳
  • Gemini大模型识别: 支持任意语言

受限于当前模型性能,说话人识别并不准确