高级设置各个选项说明
在顶部菜单--工具/选项--高级选项 中可对一些参数进行自定义,以便实现更精细的控制。如下图。


通用设置
- 软件界面语言: 设置软件界面语言,修改后需要重启软件
- 单视频翻译暂停倒计时: 当单个视频翻译时,暂停倒计时秒数
- 设置输出目录: 用于保存视频分离、字幕配音、字幕翻译等结果的位置,默认软件安装目录下output文件夹
- LLM重新断句每批字词数: LLM大模型重新断句时,每次发送多少个字或单词,该值越大断句效果越好,一次性发送全部字幕最佳,但受限于max_token,过长输入可能导致失败
- LLM重新断句所用AI渠道: LLM重新断句时使用的AI渠道,目前支持openai或deepseek渠道
- Gemini语音识别每批切片数: 使用gemini识别语音时,每次发送音频切片数,越大效果越好,但失败率会升高
- 禁用桌面通知: 任务完成或失败后不显示桌面通知
- 批量翻译时强制串行: 批量翻译时,默认分为7个阶段同时并行翻译,选中此处,将按顺序一个个翻译
- 主界面显示所有参数?: 为避免过多参数造成困扰,主界面默认隐藏大部分参数,如果选中这里将切换为默认显示所有参数
视频输出控制
- 视频输出质量控制: 视频转码时损失控制,0=无损但视频会超级大,51=质量差文件小,默认23质量和尺寸适中
- 输出视频压缩率: 主要调节编码速度和质量的平衡,有 ultrafast、superfast、veryfast、faster、fast、medium、slow、slower 、veryslow 选项,编码速度从快到慢、压缩率从低到高、视频尺寸从大到小。
- 自定义ffmpeg命令参数: 自定义ffmpeg命令参数, 将添加在倒数第二个位置上,例如 -bf 7 -b_ref_mode middle
- 强制软编码视频?: 强制软件编码?(速度慢但兼容性好不易出错,默认优选硬件编码)
- 264/265编码: 采用 libx264 编码或 libx265 编码,264兼容性更好,265压缩比更大清晰度更高
字幕翻译调整
- 传统翻译渠道每批字幕行数: 传统翻译渠道每次发送字幕行数
- AI翻译渠道每批字幕行数: AI翻译渠道每次发送字幕行数
- 每翻译请求后暂停秒: 每次翻译后暂停秒数,用于限制请求频率
- AI翻译渠道发送完整字幕: 是否在使用AI翻译渠道时发送完整字幕格式内容
配音调整
- 并发配音线程数: 同时配音的线程数
- 每配音请求后暂停秒: 每次配音后暂停秒数,用于限制请求频率
- 保留每条字幕的配音文件: 保留每行字幕的配音结果
- AzureTTS批量行数: Azure TTS批量配音行数,一次多少行
- ChatTTS音色值: ChatTTS 音色值
- EdgeTTS配音渠道配音并发数: EdgeTTS渠道配音并发数,越大越快,但可能限流失败
- EdgeTTS配音渠道失败重试次数: EdgeTTS渠道失败后重试次数,有些失败无论多少次重试也无法恢复,太大只会延长耗时
字幕声音画面对齐
- 移除配音末尾空白: 是否移除配音末尾空白
- 音频加速最大倍数: 最大音频加速倍数,默认100
- 视频慢放最大倍数: 视频慢放最大倍数,默认10,不可大于10
faster/openai/whisper语音识别调整
- 启用VAD断句: 是否在faster-whisper渠道整体识别模式时启用VAD
- 语音阈值: 表示音频片段被认为是语音的最低概率。VAD 会为每个音频片段计算语音概率,超过此阈值的部分被视为语音,反之视为静音或噪音。默认0.45,越小越灵敏但可能误将噪声视为语音
- 最短语音持续毫秒数: 如果检测到的语音片段长度小于此值,会被丢弃,目的是去除短暂的非语音噪音。填写数字,单位是ms,默认0ms,过大会出现漏字
- 最长语音持续秒数: 限制单个语音片段的最大长度。超过此时长时强制分割。填写数字,单位是秒,默认5秒
- 静音分割持续毫秒数: 在语音结束时,需等待的静音时间达到此值后,才会分割出语音片段。填写数字,单位ms,默认140ms,也就是只在大于此值的静音片段处分割
- 语音填充毫秒数: 在检测到的语音片段前后添加缓冲时间,避免切掉边缘语音。填写数字,单位ms,默认0
- faster/whisper模型: faster模式和openai模式下的模型名字列表,英文逗号分隔
- whisper.cpp模型: whisper.cpp模式下的模型名字列表,英文逗号分隔
- CUDA数据类型: faster模式时cuda数据类型,int8=消耗资源少,速度快,精度低,float32=消耗资源多,速度慢,精度高,float16适合GPU加速。default默认自选
- 识别准确度beam_size: 字幕识别时精度调整,1-5,1=消耗显存最低,5=消耗显存最多
- 识别准确度best_of: 字幕识别时精度调整,1-5,1=消耗显存最低,5=消耗显存最多
- 启用上下文感知: 若开启将占用更多GPU,效果也更好,但也容易出现重复或幻觉
- 降噪/人声背景分离线程数: 降噪和人声背景声分离线程数,越大越快但占用资源越多
- 强制批量推理: 整体识别模式强制批量推理,更快但断句较长
- 字幕繁体转简体: 强制将识别出的繁体字幕转为简体
Whisper模型提示词
- whisper模型简体中文提示词: 发音语言为简体中文时发送给whisper模型的提示词
- whisper模型繁体中文提示词: 发音语言为繁体中文时发送给whisper模型的提示词
- whisper模型英语提示词: 发音语言为英语时发送给whisper模型的提示词
- whisper模型法语提示词: 发音语言为法语时发送给whisper模型的提示词
- whisper模型德语提示词: 发音语言为德语时发送给whisper模型的提示词
- whisper模型日语提示词: 发音语言为日语时发送给whisper模型的提示词
- whisper模型韩语提示词: 发音语言为韩语时发送给whisper模型的提示词
- whisper模型俄语提示词: 发音语言为俄语时发送给whisper模型的提示词
- whisper模型西班牙语提示词: 发音语言为西班牙语时发送给whisper模型的提示词
- whisper模型泰国语提示词: 发音语言为泰国语时发送给whisper模型的提示词
- whisper模型意大利语提示词: 发音语言为意大利语时发送给whisper模型的提示词
- whisper模型葡萄牙语提示词: 发音语言为葡萄牙语时发送给whisper模型的提示词
- whisper模型越南语提示词: 发音语言为越南语时发送给whisper模型的提示词
- whisper模型阿拉伯语提示词: 发音语言为阿拉伯语时发送给whisper模型的提示词
- whisper模型土耳其语提示词: 发音语言为土耳其语时发送给whisper模型的提示词
- whisper模型印度语提示词: 发音语言为印度语时发送给whisper模型的提示词
- whisper模型匈牙利语提示词: 发音语言为匈牙利语时发送给whisper模型的提示词
- whisper模型乌克兰语提示词: 发音语言为乌克兰语时发送给whisper模型的提示词
- whisper模型印尼语提示词: 发音语言为印尼语时发送给whisper模型的提示词
- whisper模型马来语提示词: 发音语言为马来西亚语时发送给whisper模型的提示词
- whisper模型哈萨克语提示词: 发音语言为哈萨克语时发送给whisper模型的提示词
- whisper模型捷克语提示词: 发音语言为捷克语时发送给whisper模型的提示词
- whisper模型波兰语提示词: 发音语言为波兰语时发送给whisper模型的提示词
- whisper模型荷兰语提示词: 发音语言为荷兰语时发送给whisper模型的提示词
- whisper模型瑞典语提示词: 发音语言为瑞典语时发送给whisper模型的提示词
- whisper模型希伯来语提示词: 发音语言为瑞典语时发送给whisper模型的提示词
- whisper模型孟加拉语提示词: 发音语言为瑞典语时发送给whisper模型的提示词
- whisper模型波斯语提示词: 发音语言为波斯语时发送给whisper模型的提示词
- whisper模型乌尔都语提示词: 发音语言为乌尔都语时发送给whisper模型的提示词
- whisper模型粤语提示词: 发音语言为粤语时发送给whisper模型的提示词
- whisper模型菲律宾语提示词: 发音语言为菲律宾语时发送给whisper模型的提示词
