近 7 千 Star!比云端 TTS 快 10 倍,99M 参数跑本地的 TTS 太离谱了

摘要: 说出来你可能不信,有个 TTS 项目,模型只有 99M 参数,跑在本地比云端快了整整 10 倍,还支持 31 种语言——而且能在 Raspberry Pi 上流畅运行。 这就是 Supertonic,一个由 Supertone Inc. 开源的本地 TTS 引擎。6.3k Star(近 7 千),已...

说出来你可能不信,有个 TTS 项目,模型只有 99M 参数,跑在本地比云端快了整整 10 倍,还支持 31 种语言——而且能在 Raspberry Pi 上流畅运行。

这就是 Supertonic,一个由 Supertone Inc. 开源的本地 TTS 引擎。6.3k Star(近 7 千),已经火得不行了。
Supertonic 核心数据对比

Supertonic 核心数据对比
说白了,现在的 TTS 市场啊,就俩极端。

你要想音质好、延迟低?乖乖掏钱买云端 API。把文本传上去,等几秒,再传回来,每读一页网页都得过一遍网络。

你要想免费?那只能听电子合成音,语调平得跟念经一样。

Supertonic 这个项目,直接把这局面给掀了。

它基于 ONNX Runtime,所有推理都在你设备上完成——没有网络请求,没有 API 调用,隐私的问题也就不存在了。

而且它的模型有多大?99M 参数。对比同类产品,像 OpenAI 的 TTS、Qwen3-TTS 那些,动辄 0.7B 到 2B 参数。差距是 7 到 20 倍。

更离谱的是,它输出的是 44.1kHz 的 WAV 音频。

懂行的都知道,这个采样率是 CD 音质级别。不是那种"听个响"的水准,是真的能拿来用的。

它还塞了 10 个表情标签:<laugh><breath><sigh>……文本里直接嵌入,TTS 就自动带情绪了。

举个栗子,写一句:

She walked into the room,  it's been a long day.

出来的声音就会自带叹气感。这个细节真的绝了。

说到这个让我想起之前在 HN 上看到有人吐槽 OpenAI TTS——读 "$5.2M" 的时候,直接读成了 "five dollar point two em"。完全没有财务文本的语感。Supertonic 读这种带单位的金融数据、电话号码、技术缩写,反而全都处理对了。

就是那种……怎么说呢,真正为"真实世界的文本"设计的 TTS,而不是实验室里跑完美样本的那种。
Supertonic 31种语言与表情标签

Supertonic 31种语言与表情标签
安装?一行命令的事:

pip install supertonic

然后写几行 Python:

from supertonic import TTS

tts = TTS(auto_download=True)
style = tts.get_voice_style(voice_name="M1")

text = "Supertonic is a lightning fast, on-device TTS system."
wav, duration = tts.synthesize(
    text=text,
    lang="en",
    voice_style=style,
    total_steps=8,
    speed=1.05,
)

tts.save_audio(wav, "output.wav")
print(f"生成了 {duration[0]:.2f} 秒的音频")

就这。第一次运行自动从 Hugging Face 下载模型,后面就全是本地推理了。

而且它不只是 Python 能用。11 个平台的 SDK——Node.js、Java、C++、C#、Go、Swift、Rust、iOS、Flutter,甚至浏览器里直接 WebGPU 跑。你敢信?

有个 Chrome 插件叫 TLDRL,就是用 Supertonic 做的。打开任何网页,点一下,整页内容在一秒内转成语音。完全离线,零网络依赖。

还有人在 Onyx Boox Go 6 这种电子书阅读器上跑 Supertonic,平均实时率只有 0.3×——也就是说读 10 秒的音频,系统只用 3 秒就合成完了。

Raspberry Pi?也能跑。

同类工具的话,之前火过的 Bark(Suno 出品)和 Coqui TTS 在本地 TTS 赛道也很有名。但 Bark 是 0.7B 的 Transformer 模型,跑在 CPU 上慢得让人怀疑人生。Supertonic 在做"轻量级本地 TTS"这个方向上,算是目前最优解了。

项目地址在这里:https://github.com/supertone-inc/supertonic

说实话,这个项目其实有个小问题——文档虽然不能说差,但例子都分散在各语言子目录的 README 里,得翻半天才能找到想要的。你要是只用 Python,装 PyPI 包就够了。但想玩 Node.js 或者 Go,就得去项目根目录下一个一个找例子。这块希望能优化下。

不过瑕不掩瑜。99M 参数、31 种语言、44.1kHz 输出、全平台 SDK、Raspberry Pi 都能跑——这个体量的 TTS 模型能做到这个地步,我是服的。