近 7 千 Star！比云端 TTS 快 10 倍，99M 参数跑本地的 TTS 太离谱了

ivye
免费干货
2026-05-20
111热度
0评论

说出来你可能不信，有个 TTS 项目，模型只有 99M 参数，跑在本地比云端快了整整 10 倍，还支持 31 种语言——而且能在 Raspberry Pi 上流畅运行。

这就是 Supertonic，一个由 Supertone Inc. 开源的本地 TTS 引擎。6.3k Star（近 7 千），已经火得不行了。
Supertonic 核心数据对比

Supertonic 核心数据对比

说白了，现在的 TTS 市场啊，就俩极端。

你要想音质好、延迟低？乖乖掏钱买云端 API。把文本传上去，等几秒，再传回来，每读一页网页都得过一遍网络。

你要想免费？那只能听电子合成音，语调平得跟念经一样。

Supertonic 这个项目，直接把这局面给掀了。

它基于 ONNX Runtime，所有推理都在你设备上完成——没有网络请求，没有 API 调用，隐私的问题也就不存在了。

而且它的模型有多大？99M 参数。对比同类产品，像 OpenAI 的 TTS、Qwen3-TTS 那些，动辄 0.7B 到 2B 参数。差距是 7 到 20 倍。

更离谱的是，它输出的是 44.1kHz 的 WAV 音频。

懂行的都知道，这个采样率是 CD 音质级别。不是那种"听个响"的水准，是真的能拿来用的。

它还塞了 10 个表情标签：<laugh>、<breath>、<sigh>……文本里直接嵌入，TTS 就自动带情绪了。

举个栗子，写一句：

She walked into the room,  it's been a long day.

出来的声音就会自带叹气感。这个细节真的绝了。

说到这个让我想起之前在 HN 上看到有人吐槽 OpenAI TTS——读 "$5.2M" 的时候，直接读成了 "five dollar point two em"。完全没有财务文本的语感。Supertonic 读这种带单位的金融数据、电话号码、技术缩写，反而全都处理对了。

就是那种……怎么说呢，真正为"真实世界的文本"设计的 TTS，而不是实验室里跑完美样本的那种。
Supertonic 31种语言与表情标签

Supertonic 31种语言与表情标签

安装？一行命令的事：

pip install supertonic

然后写几行 Python：

from supertonic import TTS

tts = TTS(auto_download=True)
style = tts.get_voice_style(voice_name="M1")

text = "Supertonic is a lightning fast, on-device TTS system."
wav, duration = tts.synthesize(
    text=text,
    lang="en",
    voice_style=style,
    total_steps=8,
    speed=1.05,
)

tts.save_audio(wav, "output.wav")
print(f"生成了 {duration[0]:.2f} 秒的音频")

就这。第一次运行自动从 Hugging Face 下载模型，后面就全是本地推理了。

而且它不只是 Python 能用。11 个平台的 SDK——Node.js、Java、C++、C#、Go、Swift、Rust、iOS、Flutter，甚至浏览器里直接 WebGPU 跑。你敢信？

有个 Chrome 插件叫 TLDRL，就是用 Supertonic 做的。打开任何网页，点一下，整页内容在一秒内转成语音。完全离线，零网络依赖。

还有人在 Onyx Boox Go 6 这种电子书阅读器上跑 Supertonic，平均实时率只有 0.3×——也就是说读 10 秒的音频，系统只用 3 秒就合成完了。

Raspberry Pi？也能跑。

同类工具的话，之前火过的 Bark（Suno 出品）和 Coqui TTS 在本地 TTS 赛道也很有名。但 Bark 是 0.7B 的 Transformer 模型，跑在 CPU 上慢得让人怀疑人生。Supertonic 在做"轻量级本地 TTS"这个方向上，算是目前最优解了。

项目地址在这里：https://github.com/supertone-inc/supertonic

说实话，这个项目其实有个小问题——文档虽然不能说差，但例子都分散在各语言子目录的 README 里，得翻半天才能找到想要的。你要是只用 Python，装 PyPI 包就够了。但想玩 Node.js 或者 Go，就得去项目根目录下一个一个找例子。这块希望能优化下。

不过瑕不掩瑜。99M 参数、31 种语言、44.1kHz 输出、全平台 SDK、Raspberry Pi 都能跑——这个体量的 TTS 模型能做到这个地步，我是服的。