Skip to content

这是一款功能强大的开源视频翻译/语音转录/语音合成软件,致力于将视频从一种语言,无缝转换到包含另一种语言配音和字幕的视频。

核心功能一览

  • 全自动视频翻译、音频翻译:智能识别转录音视频中的说话声,生成源语言字幕文件,再翻译为目标语言字幕文件,接着进行配音,最后将新的音频与字幕合成到原视频中,一气呵成。
  • 语音转录/音视频转字幕:批量将视频或音频文件中的人类说话声,精准转录为带时间轴的 SRT 字幕文件。
  • 语音合成/文字转语音 (TTS):利用多种先进的 TTS 渠道,为您的文本或 SRT 字幕文件生成高质量、自然流畅的配音。
  • SRT 字幕文件翻译:支持批量翻译 SRT 字幕文件,保留原有时间码和格式,并提供多种双语字幕样式。

软件工作原理

在开始之前,请务必理解本软件的核心工作方式:

先将音频或视频中的人类说话声通过【语音识别渠道】生成字幕文件,然后经【翻译渠道】将该字幕文件翻译为指定的目标语言字幕,接着继续将该字幕使用所选的【配音渠道】生成配音音频,最后将字幕、音频、原视频三者嵌入并对齐,完成视频翻译流程。

  • 可以处理:任何包含人类语音的音视频,无论它有没有内嵌字幕。
  • 无法处理:只有背景音乐和硬字幕,但没有任何人说话的视频。本软件也无法直接提取视频画面中的硬字幕。

下载与安装

1.1 Windows 用户 (预打包版)

我们为 Windows 10/11 用户提供了开箱即用的预打包版本,无需繁琐配置,下载解压即用。

点击去下载windows预打包版,解压即用

解压注意事项

请不要直接在压缩包中双击 sp.exe 使用,这样必然会报错 错误地解压是导致软件无法启动的最常见原因,请严格遵守以下规则:

  1. 禁止使用管理员权限路径不要解压到 C:/Program FilesC:/Windows 等系统文件夹。
  2. 路径建议为英文数字等简单形式:解压路径不能包含任何中文、空格或特殊符号,存放路径也不可太深。
  3. 推荐做法:在 D 盘或 E 盘等非系统盘,新建一个纯英文或数字的文件夹(例如 D:/videotrans),然后将压缩包解压到此文件夹内。

解压路径示例

启动软件

解压完成后,进入文件夹,找到 sp.exe 文件,双击运行即可。 sp.exe

软件首次启动时需要加载较多模块,可能需要几十秒时间,请耐心等待。

1.2 MacOS / Linux 用户 (源码部署)

对于 MacOS 和 Linux 用户,需要通过源码方式进行部署。


软件界面与核心功能

软件启动后,您会看到如下主界面。

  • 左侧功能区:切换软件的主要功能模块,如 翻译视频和音频 、 转录并翻译字幕 、音频视频转字幕、批量翻译srt字幕、批量为字幕配音、字幕多角色配音、批转换字幕格式、音视频字幕合并等。

  • 顶部菜单栏:进行全局配置。

    • 翻译设置:配置各个翻译渠道(如OpenAI , Azure, DeepSeek )的API Key和相关参数。

    • TTS设置:配置各配音渠道(如OpenAI TTS, Azure TTS)的API Key和相关参数。

    • 语音识别设置:配置语音识别渠道(如OpenAI API, 阿里ASR)的API Key和参数。

    • 工具/选项:包含各种高级选项和辅助工具,如字幕格式调整、视频合并、人声分离等。

    • 帮助/关于:查看软件版本信息、文档和社区链接。


功能:翻译视频和音频

打开软件默认显示的就是 翻译视频和音频 工作区,这也是软件最核心的功能。我们将一步步带您完成一个完整的视频音频翻译任务。

第 1 步:选择要翻译的视频

支持的视频格式 mp4/mov/avi/mkv/webm/mpeg/ogg/mts/ts

支持的音频格式 wav/mp3/m4a/flac/aac

  • 选择音频或视频:点击该按钮,选择一个或多个需要翻译视频音频文件(按住 Ctrl 可多选)。

  • 文件夹复选框:勾选此项可批量处理整个文件夹内的所有视频。

  • 清理已生成复选框:若需对同一视频重新处理(而不是使用缓存),请勾选此项。

  • 输出到..:默认翻译后的文件保存到原视频目录下的 _video_out 文件夹,点击此按钮可单独设置翻译后视频的输出目录。

  • 仅保存视频复选框:勾选后,处理完成后只保留最终的 MP4 视频,自动删除字幕、音频等中间文件。

  • 完成后关机:处理完所有任务后自动关闭计算机,适合大批量、长时间任务。

第 2 步:选择 翻译渠道、配音渠道、语音识别渠道

翻译渠道

  • 翻译渠道:翻译渠道用来将转录后的原始语言字幕文件,翻译为目标语言字幕文件,内置十几种翻译渠道供选择
  • 免费传统翻译: Google翻译(需代理)、微软翻译(无需代理)、DeepLX(需自行部署)

  • 收费传统翻译:百度翻译、腾讯翻译、阿里机器翻译、DeepL

  • AI智能翻译:OpenAI ChatGPT、Gemini、DeepSeek、claude、智谱AI、硅基流动、302.AI 等,需自备SK密钥并填写在菜单-翻译设置-对应渠道设置面板内

  • 兼容AI/本地模型:同时支持自行本地部署大模型,只需要选择 兼容AI/本地模型 渠道,并将api地址填写到菜单-翻译设置-本地大模型设置内即可

  • 发音语言:是指原始视频中人物说话的语言,必须正确选择,如果不确定,可以选择auto

  • 目标语言:就是你希望将音视频翻译成的目标语言。

  • 术语表: 点击可配置术语表,用于在字幕翻译过程中替换对应术语,确保专业词汇的准确性。

  • 发送完整字幕:仅在使用AI翻译渠道时生效,若选中,则会将字幕完整格式发送AI进行翻译,翻译效果会更好,但要求AI模型规模较大,例如在线商业AI模型,如果是本地模型,选中此项后,有可能格式错乱或结果中出现提示词,以及较多的空白行。

  • 网络代理: 如果使用Google翻译, OpenAI,Gemini等,因国内无法直接访问这些服务,因此必须科学上网使用代理,在此填写您的代理地址和端口 (如 http://127.0.0.1:10808)。


配音渠道

  • 配音渠道:翻译后的字幕文件,将使用这里指定的渠道进行配音,支持在线配音API例如OpenAI TTS/阿里Qwen-TTS/Edge-TTS/Elevenlabs/字节火山语音合成/Azure-TTS/Minimaxi等,也支持本地部署的开源TTS模型,例如 IndexTTS2/F5-TTS/CosyVoice/ChatterBox/VoxCPM等。其中Edge-TTS是免费配音渠道,开箱可用。需要配置的一些渠道,在菜单--TTS设置--对应渠道面板中填写相关信息。
  • 配音角色:每个配音渠道一般都有多个发音人供选择,先选中目标语言后,即可选择配音角色。
  • 试听配音:在选中某个配音角色后,即可点击试听当前角色的声音效果。
  • 配音语速+/音量+/音调+:按需调整,数值代表在默认基础上的百分比增减。

语音识别渠道

  • 语音识别:用来将音频或视频中的说话声转录为字幕文件,这一步的质量直接决定后续效果。支持十多种不同识别方式,

  • faster-whisper(本地):这是本地模型(第一次运行需在线下载模型),速度和质量都较好,如无特殊需要,可选它。它有十来个不同大小的模型可选,最小最快最节省系统资源的模型是tiny,但准确度很低,不建议使用,效果最好的是 large-v2/large-v3, 建议选择他们。.en结尾和distil-开头的模型只支持英语发音的视频使用。

  • openai-whisper(本地):和上方模型基本类似,不过速度更慢一些,准确度可能略微高一点,同样建议选择 large-v2/large-v3 模型。

  • 阿里FunASR(本地):阿里的本地识别模型,对中文支持效果较好,如果你的原始视频是中文说话,可尝试使用它,同样第一次需在线下载模型

  • 此外还支持 字节火山字幕生成、OpenAI语音识别、Gemini语音识别、阿里Qwen3-ASR语音识别等多种在线API及本地模型

  • 语音切分:如无特殊需要使用默认的 整体识别即可,如果你希望平均切割为同等时长的字幕,可选择均等分割,每段分割时长可在菜单--工具-高级选项-均等分割时片段时长中指定,默认5s。

  • LLM重新断句: 勾选后,将使用大语言模型对识别出的文字进行智能断句和标点优化,显著提升字幕可读性,仅限 faster-whisper和openai-whisper渠道。

  • 本地重新断句: 勾选后,将基于标点符号和时长对识别出的文字进行断句,仅限 faster-whisper和openai-whisper渠道。

  • 降噪: 勾选后,将使用阿里的降噪模型对音频进行降噪处理,提高在嘈杂环境下的语音识别准确率,受限于该模型性能,降噪后未必能保证识别效果更佳。

如果你本地已有原始语言的srt字幕,不想让它识别,可以点击右下角的导入原始语言字幕即可。

第 3 步:设置同步与字幕

由于不同语言语速不同,翻译后的配音时长可能与原视频不符,这里可以进行调整。 主要针对配音后的时长大于原时长时进行调整,以避免声音重叠、视频已停止但声音未结束的情况,对于配音后时长变短的情况不做处理。

  • 对齐控制

    • 配音加速:如果某个配音片段比原声音片段长时,加速配音以匹配原时长。
    • 视频慢速:同样当某个配音比视频长时,放慢该片段的视频播放速度以匹配配音时长。
  • 字幕嵌入

    • 不嵌入字幕:只替换声音,不添加任何字幕。
    • 嵌入硬字幕:将字幕永久“烧录”到画面中,无法关闭,在任何地方播放均会显示字幕。
    • 嵌入软字幕:将字幕作为独立轨道封装进视频,播放器可选择开关,网页中播放时无法显示字幕。
    • (双):每条字幕都由两行组成,分别是原始语言字幕和目标语音字幕。
  • 中日韩单行字符数:在嵌入硬字幕时,中日韩文字会按照这里指定的数字强制换行,以避免过长,更精细的控制可在菜单-工具-高级选项-硬字幕样式中控制

  • 其他语言:设定除中日韩文字外,其他文字硬字幕的换行字符数

第 4 步:处理背景音

  • 保留原始背景音:勾选此项,软件会尝试分离原视频的人声和背景音,并将背景音保留在最终视频中。注意:此功能会显著增加处理时间,但能极大提升成品质量
  • 添加额外背景音频:上述功能很容易出错,而且效率很低,您可以使用外部工具分离人声和背景音,然后在此单独选择该背景音加入作为新的背景音乐。
  • 背景音量: 调整背景音的音量,小于1为减小,大于1为增大,默认为原音量的0.8倍。

第 5 步:开始执行

  • CUDA加速:如果您有 NVIDIA 显卡并正确安装了 CUDA 环境,请务必勾选此项,它能将语音识别的速度提升数倍甚至数十倍。

一切设置完毕后,点击【开始】按钮。

执行中

如果只处理一个音频或视频,在字幕生成后和字幕翻译后会暂停,让您有机会在右侧文本框中校对和修改字幕。确认无误后再次点击执行即可继续。

如果一次处理多个音视频,将同时交叉执行,中间不会暂停。

第 6 步:查看成果

任务完成后,点击底部进度条区域即可打开输出文件夹。您会看到最终的 MP4 文件以及过程中生成的 SRT 字幕、配音文件等素材。


除了核心的视频音频翻译外,pyVideoTrans 还提供了多个独立的强大功能。


功能:转录并翻译字幕

支持的视频格式 mp4/mov/avi/mkv/webm/mpeg/ogg/mts/ts

支持的音频格式 wav/mp3/m4a/flac/aac

该功能实际是视频翻译的前半段流程,即从音视频中转录并生成srt字幕文件,然后将该字幕文件翻译为所指定语言的字幕文件后,就终止了,如果你只想根据音视频生成字幕,可以选择该功能。

功能:音视频转字幕/语音转录

支持的视频格式 mp4/mov/avi/mkv/webm/mpeg/ogg/mts/ts

支持的音频格式 wav/mp3/m4a/flac/aac

这是一个专门用于将 音频视频文件转录为文字或字幕的功能面板,有时你可能不想翻译视频,而仅仅想批量根据音视频生成字幕,那么这个功能再合适不过了。

批量将视频或音频文件转录为 字幕或txt。只需拖入文件,设定好原始语言(说话语言)和识别模型,即可开始。支持 LLM重新断句降噪 等高级功能。

功能:批量翻译 SRT 字幕/字幕翻译

支持翻译的字幕格式:srt

如果您已有 SRT 字幕文件,此功能可以帮您快速翻译成其他语言,并保持时间轴不变。还支持选择 单语字幕目标语言在上(双)目标语言在下(双) 等多种输出格式。

功能:批量为字幕配音/语音合成

支持配音的字幕或文本格式:srt/txt

如果你有很多字幕文件或txt文件,想批量为他们创建配音,那么可选择该功能

将您的 SRT 文件或纯文本,通过选择的 TTS 引擎,批量合成为配音文件(如 WAV 或 MP3)。支持精细调整语速、音量和音调。

功能:字幕多角色配音/语音合成

支持配音的字幕或文本格式:srt

批量为字幕配音功能类似,所不同的是:该功能支持为每行字幕单独指定一个发音人,实现多角色配音。

功能:音视频字幕合并

这是一个实用的后期工具。当您分别拥有 视频、配音、字幕 文件时,可用它将三者完美地合并成一个最终视频文件,并支持自定义字幕样式。

功能:批转换字幕格式

可以将字幕在不同格式,例如 srt/vtt/ass/txt 之间互相转换


在菜单--工具/选项--条目下还有更多其他功能,可根据需要选择


从以上和软件原理可以看出,最重要的就是3个渠道,分别是 语音识别渠道翻译渠道配音渠道

语音识别渠道介绍

该渠道功能是将音视频中的人类说话声音,转为SRT字幕文件,支持如下 15 个语音识别渠道

当使用 faster-whisper和openai-whisper时 进行如下设置,可取得较好的识别效果,LLM重新断句本地重新断句用于辅助字幕断句效果。

  • 使用 large-v2/v3模型

  • 菜单-工具-高级选项-faster/openai语音识别调整 进行如下设置

  • 语音阈值 设为 0.5

  • 最短持续时间/毫秒 设为 0

  • 最大语音持续时间/秒 设为 5

  • 静音分隔毫秒 设为 140

  • 语音填充 设为 0

下载模型总是失败

  • 方法一:直接从 Hugging Face 官网下载,在软件的“网络代理”文本框中,填写你的代理地址和端口(格式:代理地址:端口)。或者设置系统级代理,确保整个电脑都能上网。在 sp.exe 同目录下,新建一个空文件,命名为 huggingface.lock。这样设置后,软件就会优先从官网下载模型,速度快、成功率高!
  • 方法二:使用专用下载工具,点击下载
  • 方法三: 手动从 GitHub 下载压缩包

翻译渠道介绍

翻译渠道用于将 语音识别渠道 生成的原始字幕翻译为目标语言字幕,例如中文字幕翻译为英文字幕或相反,支持 23 个翻译渠道

原因分析: 在使用传统翻译渠道如 百度翻译、腾讯翻译等时,或者使用了AI翻译但没有选中 发生完整字幕 ,此时会将字幕文本按行发送给翻译引擎,期望返回同样行数的翻译结果。如果翻译引擎返回行数同发送行数不一致,此时就会出现空白行。

解决办法: 如何彻底避免这2种情况呢 避免使用本地小模型,尤其是 7b、14b、32b等小模型,如果要使用,建议 将 同时翻译的字幕数 改为 trans_thread=1 ,并取消选择发送完整字幕 打开 菜单--工具--高级设置 将 同时翻译的字幕数 改为 trans_thread=1 即可。但显然这种方式速度变慢,也无法照应上下文,效果不佳

使用更智能的在线AI大模型,例如 gemini/deepseek在线api等

  • 使用AI翻译,结果中出现了提示词

在使用AI翻译渠道时,翻译结果将提示词也输出了。 这种情况多见于本地部署的小模型,例如 14b、32b等。 根本原因是模型规模太小,智能不足,无法严格遵循指令。

配音渠道介绍

用于根据字幕文件逐行进行配音,支持如下配音渠道

可在配音渠道中选择F5-TTS/index-tts/clone-voice/CosyVoice/GPT-SOVITS/Chatterbox等,选中clone角色,将会以原声音作为参考音频进行配音,得到原音色的配音。

需注意:参考音频一般要求3-10s时长,并且要求无背景噪声、发音清晰,否则克隆效果会较差

高级选项说明

菜单-工具-高级选项中有更多精细控制,可针对此进行个性化调节。

  • 通用设置

    • 界面语言: 设置软件界面语言,修改后需要重启软件
    • 暂停倒计时/s: 当单个视频翻译时,暂停时倒计时秒数
    • 背景音分离切割片段/s: 设置分离背景音时切割片段,防止视频过长卡死,默认300s
    • 设置家目录: 家目录,用于保存视频分离、字幕配音、字幕翻译等结果的位置,默认用户家目录
    • LLM重新断句每批次发送字或单词数: LLM大模型重新断句时,每次发送多少个字或单词,该值越大断句效果越好,一次性发送全部字幕最佳,但受限于大模型输出token,过长输入可能导致失败
    • LLM重新断句时使用的AI渠道: LLM重新断句时使用的AI渠道,目前支持openai或deepseek渠道
    • Gemini语音识别时,单次发送音频切片数: 使用gemini识别语音时,每次发送音频切片数,越大效果越好,但失败率会升高
    • 禁止桌面通知: 任务完成或失败后不显示桌面通知
  • 视频输出控制

    • 视频转码损失控制: 视频转码时损失控制,0=损失最低,51=损失最大,默认13
    • 输出视频质量压缩率控制: 主要调节编码速度和质量的平衡,有ultrafast、superfast、veryfast、faster、fast、medium、slow、slower、veryslow 选项,编码速度从快到慢、压缩率从低到高、视频尺寸从大到小。
    • 自定义ffmpeg命令参数: 自定义ffmpeg命令参数, 将添加在倒数第二个位置上,例如 -bf 7 -b_ref_mode middle
    • 使用cuda解码视频: 使用cuda解码视频
    • 264或265视频编码: 采用 libx264 编码或 libx265编码,264兼容性更好,265压缩比更大清晰度更高
  • 硬字幕样式

    • 硬字幕字体像素: 硬字幕字体像素尺寸
    • 硬字幕字体名字: 硬字幕时字体名字
    • 硬字幕文字颜色: 设置字体的颜色,注意&H后的6个字符,每2个字母分别代表 BGR 颜色,即2位蓝色/2位绿色/2位红色,同同时常见的RGB色色颠倒的。
    • 硬字幕文字边框描边颜色: 设置字体边框描边颜色(轮廓模式下),注意&H后的6个字符,每2个字母分别代表 BGR 颜色,即2位蓝色/2位绿色/2位红色,同同时常见的RGB色色颠倒的。
    • 硬字幕背景色块或阴影色: 背景色块模式下为背景色,轮廓模式下可能是阴影颜色,可能因播放器支持而不同
    • 硬字幕位置: 字幕所处位置,默认底部
    • 字幕垂直边距: 字幕垂直边距
    • 字幕左边距: 字幕左边距
    • 字幕右边距: 字幕右边距
    • 字幕阴影大小: 字幕阴影大小
    • 字幕描边粗细: 字幕描边粗细
    • 轮廓描边模式或背景色块模式: 轮廓描边是指字幕有文字描边和阴影但无背景色块,背景色块风格则相反
  • 字幕翻译调整

    • 传统翻译每次发送字幕行数: 传统翻译每次发送字幕行数
    • AI翻译每次发送字幕行数: AI翻译每次发送字幕行数
    • 翻译出错重试数: 翻译出错时的重试次数
    • 翻译后暂停时间/s: 每次翻译后暂停时间/秒,用于限制请求频率
    • 使用AI翻译时发送完整字幕内容: 是否在使用AI/Google翻译时发送完整字幕格式内容
  • 配音调整

    • 同时配音字幕数: 同时配音的字幕条数
    • 配音后暂停时间/s: 每次配音后暂停时间/秒,用于限制请求频率
    • 保留每条字幕的配音文件: 保留每条字幕的配音文件
    • AzureTTS批量行数: azureTTS一次配音行数
    • ChatTTS音色值: chatTTS 音色值
  • 字幕声音画面对齐

    • 移除配音末尾空白: 是否移除配音末尾空白
  • faster/openai语音识别调整

    • 启用VAD: 是否在faster-whisper字幕整体识别模式时启用VAD
    • 语音阈值: 表示语音的概率阈值,VAD 会输出每个音频片段的语音概率。高于该值的概率被认为是语音(SPEECH),低于该值的概率被认为是静音或背景噪音。默认值为 0.5,这在大多数情况下是适用的。 但针对不同的数据集,你可以调整这个值以更精确地区分语音和噪音。如果你发现误判太多,可以尝试将其调高到 0.6 或 0.7;如果语音片段丢失过多,则可以降低至 0.3 或 0.4。
    • 最短语音持续时间/毫秒: 最小语音持续时间,单位:毫秒。如果检测到的语音片段长度小于这个值,则该语音片段会被丢弃。目的是去除一些短暂的非语音声音或噪音。你可以根据需要调整,如果语音片段过短容易被误判为噪音,可以增加该值,例如设置为 1000 毫秒
    • 最大语音持续时间/秒: 最大语音持续时间,单位:秒。单个语音片段的最大长度。如果语音片段超过这个时长,则会在此分割。如果没有找到静音位置,则会在该时长前强行分割,避免过长的连续片段。如果你希望控制片段长度,比如处理对话或分段输出,可以根据具体需求设定,比如 10 秒或 30 秒。 0表示无穷大
    • 静音分割毫秒 : 最小静音持续时间,单位:毫秒。当检测到语音结束后,会等待的静音时间。如果静音持续时间超过该值,才会分割语音片段。
    • 语音填充毫秒: 语音填充时间,单位:毫秒。在检测到的语音片段前后各添加的填充时间,避免语音片段切割得太紧凑,可能会切掉一些边缘的语音。如果你发现切割后的语音片段有缺失部分,可以增大该 值,比如 500 毫秒或 800 毫秒。反之,如果语音片段过长或包含过多的无效部分,可以减少这个值
    • Google识别api静音片段/ms: Google识别api静音片段/ms
    • 均等分割时片段时长/s: 均等分割模式下每个片段时长秒数
    • faster和openai的模型列表: faster模式和openai模式下的模型名字列表,英文逗号分隔
    • CUDA数据类型: faster模式时cuda数据类型,int8=消耗资源少,速度快,精度低,float32=消耗资源多,速度慢,精度高,int8_float16=设备自选
    • 字幕识别准确度控制beam_size: 字幕识别时精度调整,1-5,1=消耗显存最低,5=消耗显存最多
    • 字幕识别准确度控制best_of: 字幕识别时精度调整,1-5,1=消耗显存最低,5=消耗显存最多
    • 上下文感知: 若开启将占用更多GPU,效果也更好
    • 字幕繁体转为简体: 强制将识别出的繁体字幕转为简体
  • Whisper模型提示词

    • whisper模型简体中文提示词: 原始语言为简体中文时发送给whisper模型的提示词
    • whisper模型繁体中文提示词: 原始语言为繁体中文时发送给whisper模型的提示词
    • whisper模型英语提示词: 原始语言为英语时发送给whisper模型的提示词
    • whisper模型法语提示词: 原始语言为法语时发送给whisper模型的提示词
    • whisper模型德语提示词: 原始语言为德语时发送给whisper模型的提示词
    • whisper模型日语提示词: 原始语言为日语时发送给whisper模型的提示词
    • whisper模型韩语提示词: 原始语言为韩语时发送给whisper模型的提示词
    • whisper模型俄语提示词: 原始语言为俄语时发送给whisper模型的提示词
    • whisper模型西班牙语提示词: 原始语言为西班牙语时发送给whisper模型的提示词
    • whisper模型泰国语提示词: 原始语言为泰国语时发送给whisper模型的提示词
    • whisper模型意大利语提示词: 原始语言为意大利语时发送给whisper模型的提示词
    • whisper模型葡萄牙语提示词: 原始语言为葡萄牙语时发送给whisper模型的提示词
    • whisper模型越南语提示词: 原始语言为越南语时发送给whisper模型的提示词
    • whisper模型阿拉伯语提示词: 原始语言为阿拉伯语时发送给whisper模型的提示词
    • whisper模型土耳其语提示词: 原始语言为土耳其语时发送给whisper模型的提示词
    • whisper模型印度语提示词: 原始语言为印度语时发送给whisper模型的提示词
    • whisper模型匈牙利语提示词: 原始语言为匈牙利语时发送给whisper模型的提示词
    • whisper模型乌克兰语提示词: 原始语言为乌克兰语时发送给whisper模型的提示词
    • whisper模型印尼语提示词: 原始语言为印尼语时发送给whisper模型的提示词
    • whisper模型马来语提示词: 原始语言为马来西亚语时发送给whisper模型的提示词
    • whisper模型哈萨克语提示词: 原始语言为哈萨克语时发送给whisper模型的提示词
    • whisper模型捷克语提示词: 原始语言为捷克语时发送给whisper模型的提示词
    • whisper模型波兰语提示词: 原始语言为波兰语时发送给whisper模型的提示词
    • whisper模型荷兰语提示词: 原始语言为荷兰语时发送给whisper模型的提示词
    • whisper模型瑞典语提示词: 原始语言为瑞典语时发送给whisper模型的提示词
    • whisper模型希伯来语提示词: 原始语言为瑞典语时发送给whisper模型的提示词
    • whisper模型孟加拉语提示词: 原始语言为瑞典语时发送给whisper模型的提示词
    • whisper模型波斯语提示词: 原始语言为波斯语时发送给whisper模型的提示词
    • whisper模型乌尔都语提示词: 原始语言为乌尔都语时发送给whisper模型的提示词
    • whisper模型粤语提示词: 原始语言为粤语时发送给whisper模型的提示词
    • whisper模型菲律宾语提示词: 原始语言为菲律宾语时发送给whisper模型的提示词