高级设置各个选项说明
在顶部菜单--工具/选项--高级选项 中可对一些参数进行自定义,以便实现更精细的控制。如下图。
点击左侧文字标题,可弹出详细说明
通用设置
界面语言
: 设置软件界面语言,修改后需要重启软件暂停倒计时/s
: 当单个视频翻译时,暂停时倒计时秒数背景音分离切割片段/s
: 设置分离背景音时切割片段,防止视频过长卡死,默认300s设置家目录
: 家目录,用于保存视频分离、字幕配音、字幕翻译等结果的位置,默认用户家目录LLM重新断句每批次发送字或单词数
: LLM大模型重新断句时,每次发送多少个字或单词,该值越大断句效果越好,一次性发送全部字幕最佳,但受限于大模型输出token,过长输入可能导致失败LLM重新断句时使用的AI渠道
: LLM重新断句时使用的AI渠道,目前支持openai或deepseek渠道Gemini语音识别时,单次发送音频切片数
: 使用gemini识别语音时,每次发送音频切片数,越大效果越好,但失败率会升高禁止桌面通知
: 任务完成或失败后不显示桌面通知
视频输出控制
视频转码损失控制
: 视频转码时损失控制,0=损失最低,51=损失最大,默认13输出视频质量压缩率控制
: 主要调节编码速度和质量的平衡,有ultrafast、superfast、veryfast、faster、fast、medium、slow、slower、veryslow 选项,编码速度从快到慢、压缩率从低到高、视频尺寸从大到小。自定义ffmpeg命令参数
: 自定义ffmpeg命令参数, 将添加在倒数第二个位置上,例如 -bf 7 -b_ref_mode middle使用cuda解码视频
: 使用cuda解码视频264或265视频编码
: 采用 libx264 编码或 libx265编码,264兼容性更好,265压缩比更大清晰度更高
硬字幕样式
硬字幕字体像素
: 硬字幕字体像素尺寸硬字幕字体名字
: 硬字幕时字体名字硬字幕文字颜色
: 设置字体的颜色,注意&H后的6个字符,每2个字母分别代表 BGR 颜色,即2位蓝色/2位绿色/2位红色,同同时常见的RGB色色颠倒的。硬字幕文字边框描边颜色
: 设置字体边框描边颜色(轮廓模式下),注意&H后的6个字符,每2个字母分别代表 BGR 颜色,即2位蓝色/2位绿色/2位红色,同同时常见的RGB色色颠倒的。硬字幕背景色块或阴影色
: 背景色块模式下为背景色,轮廓模式下可能是阴影颜色,可能因播放器支持而不同硬字幕位置
: 字幕所处位置,默认底部字幕垂直边距
: 字幕垂直边距字幕左边距
: 字幕左边距字幕右边距
: 字幕右边距字幕阴影大小
: 字幕阴影大小字幕描边粗细
: 字幕描边粗细轮廓描边模式或背景色块模式
: 轮廓描边是指字幕有文字描边和阴影但无背景色块,背景色块风格则相反
字幕翻译调整
传统翻译每次发送字幕行数
: 传统翻译每次发送字幕行数AI翻译每次发送字幕行数
: AI翻译每次发送字幕行数翻译后暂停时间/s
: 每次翻译后暂停时间/秒,用于限制请求频率使用AI翻译时发送完整字幕内容
: 是否在使用AI/Google翻译时发送完整字幕格式内容
配音调整
同时配音字幕数
: 同时配音的字幕条数配音后暂停时间/s
: 每次配音后暂停时间/秒,用于限制请求频率保留每条字幕的配音文件
: 保留每条字幕的配音文件AzureTTS批量行数
: azureTTS一次配音行数ChatTTS音色值
: chatTTS 音色值
字幕声音画面对齐
移除配音末尾空白
: 是否移除配音末尾空白
faster/openai语音识别调整
启用VAD
: 是否在faster-whisper字幕整体识别模式时启用VAD语音阈值
: 表示语音的概率阈值,VAD 会输出每个音频片段的语音概率。高于该值的概率被认为是语音(SPEECH),低于该值的概率被认为是静音或背景噪音。默认值为 0.5,这在大多数情况下是适用的。 但针对不同的数据集,你可以调整这个值以更精确地区分语音和噪音。如果你发现误判太多,可以尝试将其调高到 0.6 或 0.7;如果语音片段丢失过多,则可以降低至 0.3 或 0.4。最短语音持续时间/毫秒
: 最小语音持续时间,单位:毫秒。如果检测到的语音片段长度小于这个值,则该语音片段会被丢弃。目的是去除一些短暂的非语音声音或噪音。你可以根据需要调整,如果语音片段过短容易被误判为噪音,可以增加该值,例如设置为 1000 毫秒最大语音持续时间/秒
: 最大语音持续时间,单位:秒。单个语音片段的最大长度。如果语音片段超过这个时长,则会在此分割。如果没有找到静音位置,则会在该时长前强行分割,避免过长的连续片段。如果你希望控制片段长度,比如处理对话或分段输出,可以根据具体需求设定,比如 10 秒或 30 秒。 0表示无穷大静音分割毫秒
: 最小静音持续时间,单位:毫秒。当检测到语音结束后,会等待的静音时间。如果静音持续时间超过该值,才会分割语音片段。语音填充毫秒
: 语音填充时间,单位:毫秒。在检测到的语音片段前后各添加的填充时间,避免语音片段切割得太紧凑,可能会切掉一些边缘的语音。如果你发现切割后的语音片段有缺失部分,可以增大该 值,比如 500 毫秒或 800 毫秒。反之,如果语音片段过长或包含过多的无效部分,可以减少这个值Google识别api静音片段/ms
: Google识别api静音片段/ms均等分割时片段时长/s
: 均等分割模式下每个片段时长秒数faster和openai的模型列表
: faster模式和openai模式下的模型名字列表,英文逗号分隔CUDA数据类型
: faster模式时cuda数据类型,int8=消耗资源少,速度快,精度低,float32=消耗资源多,速度慢,精度高,int8_float16=设备自选字幕识别准确度控制beam_size
: 字幕识别时精度调整,1-5,1=消耗显存最低,5=消耗显存最多字幕识别准确度控制best_of
: 字幕识别时精度调整,1-5,1=消耗显存最低,5=消耗显存最多上下文感知
: 若开启将占用更多GPU,效果也更好字幕繁体转为简体
: 强制将识别出的繁体字幕转为简体
Whisper模型提示词
whisper模型简体中文提示词
: 原始语言为简体中文时发送给whisper模型的提示词whisper模型繁体中文提示词
: 原始语言为繁体中文时发送给whisper模型的提示词whisper模型英语提示词
: 原始语言为英语时发送给whisper模型的提示词whisper模型法语提示词
: 原始语言为法语时发送给whisper模型的提示词whisper模型德语提示词
: 原始语言为德语时发送给whisper模型的提示词whisper模型日语提示词
: 原始语言为日语时发送给whisper模型的提示词whisper模型韩语提示词
: 原始语言为韩语时发送给whisper模型的提示词whisper模型俄语提示词
: 原始语言为俄语时发送给whisper模型的提示词whisper模型西班牙语提示词
: 原始语言为西班牙语时发送给whisper模型的提示词whisper模型泰国语提示词
: 原始语言为泰国语时发送给whisper模型的提示词whisper模型意大利语提示词
: 原始语言为意大利语时发送给whisper模型的提示词whisper模型葡萄牙语提示词
: 原始语言为葡萄牙语时发送给whisper模型的提示词whisper模型越南语提示词
: 原始语言为越南语时发送给whisper模型的提示词whisper模型阿拉伯语提示词
: 原始语言为阿拉伯语时发送给whisper模型的提示词whisper模型土耳其语提示词
: 原始语言为土耳其语时发送给whisper模型的提示词whisper模型印度语提示词
: 原始语言为印度语时发送给whisper模型的提示词whisper模型匈牙利语提示词
: 原始语言为匈牙利语时发送给whisper模型的提示词whisper模型乌克兰语提示词
: 原始语言为乌克兰语时发送给whisper模型的提示词whisper模型印尼语提示词
: 原始语言为印尼语时发送给whisper模型的提示词whisper模型马来语提示词
: 原始语言为马来西亚语时发送给whisper模型的提示词whisper模型哈萨克语提示词
: 原始语言为哈萨克语时发送给whisper模型的提示词whisper模型捷克语提示词
: 原始语言为捷克语时发送给whisper模型的提示词whisper模型波兰语提示词
: 原始语言为波兰语时发送给whisper模型的提示词whisper模型荷兰语提示词
: 原始语言为荷兰语时发送给whisper模型的提示词whisper模型瑞典语提示词
: 原始语言为瑞典语时发送给whisper模型的提示词whisper模型希伯来语提示词
: 原始语言为瑞典语时发送给whisper模型的提示词whisper模型孟加拉语提示词
: 原始语言为瑞典语时发送给whisper模型的提示词whisper模型波斯语提示词
: 原始语言为波斯语时发送给whisper模型的提示词whisper模型乌尔都语提示词
: 原始语言为乌尔都语时发送给whisper模型的提示词whisper模型粤语提示词
: 原始语言为粤语时发送给whisper模型的提示词whisper模型菲律宾语提示词
: 原始语言为菲律宾语时发送给whisper模型的提示词