网易有道开源了一款名叫 Confucius4-TTS 的文本转语音系统。它的主要特点是:只需提供一段简短的参考音频,就能模仿原音频的音色,跨语言朗读。
🌐 在线体验 如果你想先试听一下效果,可以直接在浏览器打开官方提供的网页版体验: 👉 https://confucius4-tts.youdao.com/gradio
✨ 主要功能与特点
这款工具的能力非常实在,主要体现在以下几个方面:
- 支持 14 种语言:包含了中文、英文、日语、韩语、德语、法语、西班牙语、印尼语、意大利语、泰语、葡萄牙语、俄语、马来语、越南语等常用语种。
- 给声音就能克隆:不需要提供原声音的文字稿,上传一段音频就能直接模仿。
- 跨语种无缝切换:这是它的一大亮点。比如你给它一段纯中文的参考声音,它可以模仿这个人的音色,去读一段非常标准的英文或日语。
- 保留原声情感:不仅能模仿音色,还能尽量保留原声音里带有的情绪。
📦 Windows 一键整合包(新手推荐)
官方的原版代码默认没有提供图形操作界面,新手配置起来门槛比较高。为此,我写了一个操作界面,并制作了 Windows 一键整合包,解压后直接就能运行。
📥 下载地址(任选其一即可):
- 百度网盘:https://pan.baidu.com/s/1gb8UCVXkbTUuaLShqYVEVg?pwd=1234
- HuggingFace 下载:https://huggingface.co/mortimerme/repocollect/resolve/main/confucius4-2026-0621.7z?download=true
🚀 使用方法:
- 下载后,将压缩包解压到电脑的纯英文路径下。
- 进入文件夹,双击运行
启动Webui.bat。 - 耐心等待黑框启动完成后,在浏览器中打开
http://127.0.0.1:7860。 - 界面如下,上传参考音频,输入想要生成的文字即可:

💻 单独的 WebUI 界面文件(适合源码部署)
如果你有一定的技术基础,已经自己通过官方源码配置好了环境,也可以只下载我写好的界面脚本。
- 下载地址:https://github.com/jianchang512/Confucius4-TTS/blob/main/webui.py
- 使用方法:将下载的
webdui.py文件放入官方代码的根目录下,运行这个 Python 脚本即可启动带界面的版本。
