16款本地TTS（语音克隆）模型大盘点，不懂代码也能玩转！ | pyVideoTrans官网-开源免费视频翻译配音软件 pyvideotrans.com pyvideotrans github github.com/jianchang512/pyvideotrans

AI 语音克隆和配音（TTS）不仅效果逼真，很多还能直接模仿你自己的声音。

其实，现在有很多免费开源、可以部署在自己电脑上的TTS模型！

不懂代码也没关系，有很多热心开发者制作的“一键整合包”，下载解压双击启动就能用。整理了一下目前较为活跃的 16 款本地 TTS 模型，从速度、语言、资源消耗等维度看看哪款最适合你！

太长不看版！

不想看长篇大论，直接根据需求对号入座：

只要中文配音最好听： index-tts / F5-TTS / Qwen3-TTS / Confucius4-TTS / CosyVoice3
要做多语言/出海短视频： OmniVoice / Fish-TTS / VoxCPM / ChatterBox
电脑配置一般，只求速度快： Kokoro-TTS / supertonic / ChatTTS / MOSS-TTS-Nano
想用自己的声音训练（炼丹）： 首推 GPT-SoVITS

为了方便大家对比，我将它们的核心特点做了一个梳理。 (注：文中附带了 GitHub 开源地址和在线体验地址，小白朋友可直接复制名字去 B站搜索“XXX 一键整合包”)

F5-TTS
- 出身： 上海交大开源
- 语言： 中文、英文
- 特点： 容易部署，综合体验优秀，中英双语的克隆效果非常自然。
- 开源地址： github.com/SWivid/F5-TTS
- 在线体验： huggingface.co/spaces/mrfakename/E2-F5-TTS
index-tts
- 出身： B站开源
- 语言： 中文、英文
- 特点： 效果极佳！ 声音表现力天花板级别，但代价是生成速度比较慢，适合对音质要求极高的“慢工出细活”玩家。
- 开源地址： github.com/index-tts/index-tts
- 在线体验： modelscope.cn/studios/IndexTeam/IndexTTS-2-Demo
Qwen3-TTS
- 出身： 阿里开源
- 语言： 中英日韩法德等 10 种语言
- 特点： 大厂出品，中文发音极其地道，不过生成速度略慢，需要一点耐心。
- 开源地址： github.com/QwenLM/Qwen3-TTS
- 在线体验： modelscope.cn/studios/Qwen/Qwen3-TTS
GPT-SoVITS
- 出身： 国内大神 RVC-Boss 开源
- 语言： 中、英、日、韩、粤语
- 特点： 非常适合小白用很少的干音（几分钟甚至十几秒）来微调训练出专属的语音模型。
- 开源地址： github.com/RVC-Boss/GPT-SoVITS

Kokoro-82M
- 语言： 中英日、法意西葡、印地语
- 特点： 极致轻量化！速度直接起飞，对电脑配置要求极低。但缺点是感情起伏比较平淡，效果一般。
- 开源地址： github.com/hexgrad/kokoro
- 在线体验： huggingface.co/hexgrad/Kokoro-82M
Confucius4-TTS
- 出身： 网易有道开源
- 语言： 14 种主流语言
- 特点： 速度非常快，而且声音效果不错，属于既要速度又要质量的均衡之选。
- 开源地址： github.com/netease-youdao/Confucius4-TTS
- 在线体验： confucius4-tts.youdao.com/gradio.
ChatTTS
- 语言： 中文、英文
- 特点： 对话感极强，甚至能自动加“呃、啊”等语气词，生成速度较快。
- 开源地址： github.com/2noise/ChatTTS
- 在线体验： huggingface.co/spaces/taa/ChatTTS_Speaker
MOSS-TTS-Nano
- 出身： 模思 OpenMoss
- 语言： 19 种主流语言
- 特点： 主打一个 Nano（小巧），生成速度极快，适合轻量级应用场景。
- 开源地址： github.com/OpenMOSS/MOSS-TTS-Nano
- 在线体验： modelscope.cn/studios/openmoss/MOSS-TTS-Nano

CosyVoice3
- 出身： 阿里开源
- 语言： 9国语言 + 18种以上中文方言
- 特点： 妥妥的方言神器！支持粤语、四川话、东北话、上海话等，方言配音博主必备。
- 开源地址： github.com/FunAudioLLM/CosyVoice
- 在线体验： modelscope.cn/studios/FunAudioLLM/Fun-CosyVoice3-0.5B
OmniVoice
- 出身： 小米开源
- 语言： 支持 600 多种语言！
- 特点： 语言库庞大到离谱，如果你需要非常冷门的小语种，找它就对了。
- 开源地址： github.com/k2-fsa/OmniVoice
- 在线体验： huggingface.co/spaces/k2-fsa/OmniVoice
Fish-Speech
- 出身： fish.audio
- 语言： 80 多种语言分级支持
- 特点： 零样本克隆能力极强，中英日效果最好，生态好，非常适合做海外多语言矩阵账号(明确要求不得用于商业，其他模型要么未明确，要么只要有被克隆声音授权就可商用)。
- 开源地址： github.com/fishaudio/fish-speech
VoxCPM2
- 出身： 面壁智能开源
- 语言： 30+ 种语言及众多中文方言
- 特点： 效果很不错，方言支持也很好，但注意：必须有N卡（NVIDIA显卡）才能跑得动，其他模型无N卡也可用，虽然会极慢。
- 开源地址： github.com/OpenBMB/VoxCPM
- 在线体验： modelscope.cn/studios/OpenBMB/VoxCPM2-Demo

supertonic-3
- 语言： 31种语言（以欧洲语言为主，也支持中文）
- 特点： 极度适合英文和欧洲语系，速度极快，做外语短视频首选。
- 开源地址： github.com/supertone-inc/supertonic
- 在线体验： huggingface.co/spaces/Supertone/supertonic-3
ChatterBox
- 出身： Resemble AI
- 语言： 23种语言
- 特点： 速度较快，同样在欧洲语言的表现上非常亮眼，也支持中文。
- 开源地址： github.com/resemble-ai/chatterbox
- 在线体验： huggingface.co/spaces/ResembleAI/Chatterbox-Multilingual-TTS
Dia-1.6b
- 出身： Nari Labs
- 语言： 仅支持英文
- 特点： 专注英文赛道，术业有专攻。
- 开源地址： github.com/nari-labs/dia
- 在线体验： huggingface.co/spaces/nari-labs/Dia-1.6B
Spark-tts
- 出身： 国内几所高校联合开源
- 语言： 中、英
- 特点： 高校学术背景，底层架构扎实，适合中英双语场景。
- 开源地址： github.com/SparkAudio/Spark-TTS
- 在线体验： huggingface.co/spaces/thunnai/SparkTTS

在线体验地址为 modelscope.cn 开头的国内可直接访问，huggingface.co开头的需科学上网

看到那么多 GitHub 链接先别晕！对于没有编程基础的朋友，强烈建议不要直接去 GitHub 下载源码折腾。

正确姿势是： 打开 B站或百度，直接搜索 “模型名字 + 一键整合包”（例如：F5-TTS 一键整合包）。你只需要：下载 ➡️ 解压 ➡️ 双击启动 ➡️ 在网页里打字 ！

笔者也做了f5-tts/index-tts/confucius4等几款tts的整合包，存在百度网盘上，有需要可以看看，其他整合包请B站搜索
https://pan.baidu.com/s/1GMDyj0zKIrOalKdjkXos-g?pwd=1234