AI 语音克隆和配音(TTS)不仅效果逼真,很多还能直接模仿你自己的声音。
其实,现在有很多免费开源、可以部署在自己电脑上的TTS模型!
不懂代码也没关系,有很多热心开发者制作的“一键整合包”,下载解压双击启动就能用。整理了一下目前较为活跃的 16 款本地 TTS 模型,从速度、语言、资源消耗等维度看看哪款最适合你!
太长不看版!
不想看长篇大论,直接根据需求对号入座:
- 只要中文配音最好听:
index-tts/F5-TTS/Qwen3-TTS/Confucius4-TTS/CosyVoice3 - 要做多语言/出海短视频:
OmniVoice/Fish-TTS/VoxCPM/ChatterBox - 电脑配置一般,只求速度快:
Kokoro-TTS/supertonic/ChatTTS/MOSS-TTS-Nano - 想用自己的声音训练(炼丹): 首推
GPT-SoVITS
16款TTS 模型详细盘点
为了方便大家对比,我将它们的核心特点做了一个梳理。 (注:文中附带了 GitHub 开源地址和在线体验地址,小白朋友可直接复制名字去 B站 搜索“XXX 一键整合包”)
1. 综合全能 & 中文王者
- F5-TTS
- 出身: 上海交大开源
- 语言: 中文、英文
- 特点: 容易部署,综合体验优秀,中英双语的克隆效果非常自然。
- 开源地址: github.com/SWivid/F5-TTS
- 在线体验: huggingface.co/spaces/mrfakename/E2-F5-TTS
- index-tts
- 出身: B站开源
- 语言: 中文、英文
- 特点: 效果极佳! 声音表现力天花板级别,但代价是生成速度比较慢,适合对音质要求极高的“慢工出细活”玩家。
- 开源地址: github.com/index-tts/index-tts
- 在线体验: modelscope.cn/studios/IndexTeam/IndexTTS-2-Demo
- Qwen3-TTS
- 出身: 阿里开源
- 语言: 中英日韩法德等 10 种语言
- 特点: 大厂出品,中文发音极其地道,不过生成速度略慢,需要一点耐心。
- 开源地址: github.com/QwenLM/Qwen3-TTS
- 在线体验: modelscope.cn/studios/Qwen/Qwen3-TTS
- GPT-SoVITS
- 出身: 国内大神 RVC-Boss 开源
- 语言: 中、英、日、韩、粤语
- 特点: 非常适合小白用很少的干音(几分钟甚至十几秒)来微调训练出专属的语音模型。
- 开源地址: github.com/RVC-Boss/GPT-SoVITS
2. 追求极致速度 & 节省资源
- Kokoro-82M
- 语言: 中英日、法意西葡、印地语
- 特点: 极致轻量化!速度直接起飞,对电脑配置要求极低。但缺点是感情起伏比较平淡,效果一般。
- 开源地址: github.com/hexgrad/kokoro
- 在线体验: huggingface.co/hexgrad/Kokoro-82M
- Confucius4-TTS
- 出身: 网易有道开源
- 语言: 14 种主流语言
- 特点: 速度非常快,而且声音效果不错,属于既要速度又要质量的均衡之选。
- 开源地址: github.com/netease-youdao/Confucius4-TTS
- 在线体验: confucius4-tts.youdao.com/gradio.
- ChatTTS
- 语言: 中文、英文
- 特点: 对话感极强,甚至能自动加“呃、啊”等语气词,生成速度较快。
- 开源地址: github.com/2noise/ChatTTS
- 在线体验: huggingface.co/spaces/taa/ChatTTS_Speaker
- MOSS-TTS-Nano
- 出身: 模思 OpenMoss
- 语言: 19 种主流语言
- 特点: 主打一个 Nano(小巧),生成速度极快,适合轻量级应用场景。
- 开源地址: github.com/OpenMOSS/MOSS-TTS-Nano
- 在线体验: modelscope.cn/studios/openmoss/MOSS-TTS-Nano
3. 语言大师 & 方言达人
- CosyVoice3
- 出身: 阿里开源
- 语言: 9国语言 + 18种以上中文方言
- 特点: 妥妥的方言神器!支持粤语、四川话、东北话、上海话等,方言配音博主必备。
- 开源地址: github.com/FunAudioLLM/CosyVoice
- 在线体验: modelscope.cn/studios/FunAudioLLM/Fun-CosyVoice3-0.5B
- OmniVoice
- 出身: 小米开源
- 语言: 支持 600 多种语言!
- 特点: 语言库庞大到离谱,如果你需要非常冷门的小语种,找它就对了。
- 开源地址: github.com/k2-fsa/OmniVoice
- 在线体验: huggingface.co/spaces/k2-fsa/OmniVoice
- Fish-Speech
- 出身: fish.audio
- 语言: 80 多种语言分级支持
- 特点: 零样本克隆能力极强,中英日效果最好,生态好,非常适合做海外多语言矩阵账号(明确要求不得用于商业,其他模型要么未明确,要么只要有被克隆声音授权就可商用)。
- 开源地址: github.com/fishaudio/fish-speech
- VoxCPM2
- 出身: 面壁智能开源
- 语言: 30+ 种语言及众多中文方言
- 特点: 效果很不错,方言支持也很好,但注意:必须有N卡(NVIDIA显卡)才能跑得动,其他模型无N卡也可用,虽然会极慢。
- 开源地址: github.com/OpenBMB/VoxCPM
- 在线体验: modelscope.cn/studios/OpenBMB/VoxCPM2-Demo
4. 专精外语赛道
- supertonic-3
- 语言: 31种语言(以欧洲语言为主,也支持中文)
- 特点: 极度适合英文和欧洲语系,速度极快,做外语短视频首选。
- 开源地址: github.com/supertone-inc/supertonic
- 在线体验: huggingface.co/spaces/Supertone/supertonic-3
- ChatterBox
- 出身: Resemble AI
- 语言: 23种语言
- 特点: 速度较快,同样在欧洲语言的表现上非常亮眼,也支持中文。
- 开源地址: github.com/resemble-ai/chatterbox
- 在线体验: huggingface.co/spaces/ResembleAI/Chatterbox-Multilingual-TTS
- Dia-1.6b
- 出身: Nari Labs
- 语言: 仅支持英文
- 特点: 专注英文赛道,术业有专攻。
- 开源地址: github.com/nari-labs/dia
- 在线体验: huggingface.co/spaces/nari-labs/Dia-1.6B
- Spark-tts
- 出身: 国内几所高校联合开源
- 语言: 中、英
- 特点: 高校学术背景,底层架构扎实,适合中英双语场景。
- 开源地址: github.com/SparkAudio/Spark-TTS
- 在线体验: huggingface.co/spaces/thunnai/SparkTTS
在线体验地址为
modelscope.cn开头的国内可直接访问,huggingface.co开头的需科学上网
小白怎么用?
看到那么多 GitHub 链接先别晕!对于没有编程基础的朋友,强烈建议不要直接去 GitHub 下载源码折腾。
正确姿势是: 打开 B站 或 百度,直接搜索 “模型名字 + 一键整合包”(例如:F5-TTS 一键整合包)。你只需要:下载 ➡️ 解压 ➡️ 双击启动 ➡️ 在网页里打字 !
笔者也做了f5-tts/index-tts/confucius4等几款tts的整合包,存在百度网盘上,有需要可以看看,其他整合包请B站搜索
