GroqCloud免费API — GroqCloud免费层实测：3000 token/秒到底能干什么

ivye
未分类
2天前
26热度
0评论

最近一个月吧，AI圈里有个名字传得挺开的——GroqCloud。

你发现没，现在大部分公司都在比参数多大、模型多牛。这家公司偏不，它就死磕一个字：快。

GroqCloud 是一款基于自研 LPU 芯片的大模型推理服务平台，官方数据显示其推理速度达到 300-1000 token/秒，主流 GPU 平台基本卡在 50-150 token/秒。

同样丢一句话给 LLaMA，人家 GroqCloud 两秒出结果，对面呢，还在转圈圈加载中……

速度快只是它的一半卖点。真正让独立开发者和个人玩家上头的是另一件事：GroqCloud 长期开放完全免费的 API 层，不用绑信用卡，注册就直接用。免费嘛，大模型圈不少见。但是免费还这么快，就有点离谱了。

免费层到底免了哪些东西

打开 console.groq.com 注册个账号，一把 API key 就到手了。全程不用掏钱。免费层给出来的限制主要四条：

每天 14,400 次请求，算下来大概每秒 0.6 次
每分钟 RPM 30 次
TPM 看模型，低的 6K，高的能到 70K，不同模型差挺多
超了就给你返回 HTTP 429，带个 retry-after 头告诉你等多久

你看，这几条放一起其实就决定了免费层适合干嘛——跑批量？不行。灌流量？也不行。但是拿来做实时交互、写代码 Copilot、语音转写这种节奏不紧不慢的场景，说实话绰绰有余。

还有个细节很多人不注意：token 配额是按模型单独算的。同一把 key，在 8B 模型上跑得飞起，你换成 70B 试试，立马就感觉吃紧了。是不是有点坑？

话说回来，免费层本来就不是做慈善的。说白了就是 GroqCloud 让你先跑起来，跑爽了再考虑要不要掏钱。先上车后买票，我觉得比硬塞三天试用码厚道多了。

哪些模型能免费跑

免费层按模型粒度分配资源，不是那种一刀切给个总配额的路子。下面这些数据扒自官方控制台公开页（2026年6月），你直接去后台也能对得上：

模型	RPM	RPD	TPM	TPD
llama-3.1-8b-instant	30	14,400	6K	500K
llama-3.3-70b-versatile	30	1,000	12K	100K
meta-llama/llama-4-scout-17b-16e-instruct	30	1,000	30K	500K
openai/gpt-oss-120b	30	1,000	8K	200K
openai/gpt-oss-20b	30	1,000	8K	200K
qwen/qwen3-32b	60	1,000	6K	500K
qwen/qwen3.6-27b	30	1,000	8K	200K
whisper-large-v3	20	2,000	ASH 7.2K	ASD 28.8K
whisper-large-v3-turbo	20	2,000	ASH 7.2K	ASD 28.8K
groq/compound	30	250	70K	—
groq/compound-mini	30	250	70K	—

看完这张表，说实话，能看出不少门道：

8B instant 是真正的"日用款"。14,400 RPD 配上 6K TPM，普通开发者从早跑到晚基本没啥压力。

70B versatile 走的是"精品路线"——RPD 只有 1,000，看着少，但单次能吃下 12K token 上下文。跑长文档分析刚好够用，是不是还挺鸡贼的？

Whisper 系列独立计算。语音转写用的是 ASH/ASD 维度（音频时长秒数），RPM 20、RPD 2,000。做会议记录、播客字幕这些活儿完全够。

groq/compound 配额最紧。RPD 仅 250，TPM 却拉到 70K，明显是面向复杂 Agent 工作流的限量款。

模型切换不需要重新申请 key，直接在请求里改 model 字段就行。

免费层的设计逻辑其实挺清楚的——小模型让你日常跑爽，大模型让你按需薅配额。把每一种模型都当成"工具"而不是"全能选手"，心态会轻松很多。

两行代码接入 OpenAI 兼容接口

GroqCloud 的接入门槛低到几乎不存在。它的 API 完整兼容 OpenAI 协议，base_url 换成下面这串地址，原来的代码就能直接跑：

https://api.groq.com/openai/v1

以 Python 为例，切换只改两行：

import os
from openai import OpenAI

client = OpenAI(
base_url="https://api.groq.com/openai/v1",
api_key=os.environ.get("GROQ_API_KEY"),
)

JavaScript / Node 端同理，把 baseURL 改成同一个地址，header 里塞 GROQ_API_KEY 就完事了。

已对接 OpenAI SDK 的项目，包括 LangChain、LlamaIndex、Cline、Cursor 自定义 Provider，都能直接换地址复用——说实话，这对已经在跑 OpenAI 的团队来说简直是福音，迁移成本接近零。

API key 在控制台 console.groq.com → API Keys 页面一键生成，生成后立即可用，过期或泄露了随时吊销，挺省心的。

兼容 OpenAI 协议真的是这家公司最聪明的一招。用户不用学新东西，存量代码不用改，连调试工具都能继续用 OpenAI 那一套。你猜怎么着？连 LangChain 和 LlamaIndex 这种大框架都能无缝切过去，基本就是换了个地址的事儿。

真实使用场景：开发者拿它做什么

光看数字不直观，看看社区里大家怎么用：

场景一：个人开发者跑 LLaMA 3.3 70B 测试

很多人开发 Agent 的时候不想烧钱，70B 的聪明程度够用了。1,000 RPD 拿来写 demo、跑回归、写单测，一整天都打不完。再配上那个看家的速度优势，原本在 GPU 上跑半天的回归脚本，放到 GroqCloud 上不到一小时就能跑完。说实话，这个效率提升我自己看到的时候都愣了一下。

场景二：Whisper 语音转写当免费 OCR

录音文件丢过去，秒级返回带时间戳的文本。RPD 2,000 配上 ASH 7,200（一小时音频大约 7,200 秒），转个播客、长会绰绰有余。做自媒体、播客剪辑的人，把这一档当免费的字幕生成器用，长期用下来一年能省下一笔不小的人力成本。你看，这不比请人手动打字幕香多了？

场景三：把 30 RPM 当 LLM 加速器接入 Cursor/Cline

本地 IDE 写代码的时候，单次请求往往就发一两条。把 30 RPM 接进 Cursor 或者 Cline 的自定义 Provider，编辑器不改架构就能跑出比直接调 OpenAI 快几倍的首字延迟。写代码的时候看着 AI 跟手补全，比盯着它转圈舒服太多了……这种体验一旦回不去就真的回不去了。

场景四：构建原型阶段的对话产品

Demo 阶段流量不大，但用户对响应速度是真的敏感。免费层 0.6 RPS 平均、300+ token/秒的速度，做个本地 AI 助手 demo 给客户演示，效果远比卡顿强。这种"快"在投资人路演、用户调研、内部汇报里，往往比模型能力本身更打动人心。我倒是认为，第一印象这东西，速度比参数重要。

场景五：学生和研究者跑论文级实验

高校、研究机构里的研究者做 prompt 工程、RAG 评测、对齐实验，本地显卡跑不动大模型，外网 API 又要钱。免费层正好填这个口子，把实验代码的 base_url 切换一下，整篇实验的成本就压到接近零了。老实讲，对学生党来说这真的太关键了。

免费层真正舒服的地方就在于"刚刚好"。目标定在 demo、原型、本地工具的话，14,400 RPD 够用一整天；想拿它跑生产级流量？那还是得看付费档。

免费层也有边界：超限会怎样

免费层不是无限量供应的，撞到配额会直接给你返回 429。错误长这样：

HTTP/1.1 429 Too Many Requests
retry-after: 23

retry-after 这个头会告诉你具体还要等几秒再试。不过很多人踩坑，就是因为没搞清自己到底撞了哪种限速。

撞 RPM 限速：通常几秒到几十秒就恢复了，逻辑重试一下就行，问题不大。
撞 RPD 限速：这个要等到第二天 UTC 0 点才重置。如果你在国内，UTC 0 点对应北京时间早上 8 点，正好是一天工作的开始，你说巧不巧？
撞 TPM 限速：把 prompt 拆短，或者切到上下文更宽松的模型。比如从 8B 切到 70B 的时候要小心——前者 6K TPM，后者 12K TPM，看着大了一倍对吧？但 70B 的 RPD 只有 1,000，长文档场景反而要省着点用。
Token 计费透明：免费层不扣钱，但所有请求都会进 TPM/TPD 计数窗口。即使没成功生成，只要请求发出去了，就算一次配额消耗。所以客户端要做好超时和重试的兜底，别不当回事。
并发限制：免费层默认并发数不高，多线程同时打过去也会撞墙。建议客户端内置一个简单的信号量或者队列，别一股脑全丢过去。

说实话，免费层的限制是透明的、可预测的。这比某些平台"先用着再说、突然锁号"的玩法靠谱多了。

升级路径：付费用 Dev 还是直接上企业

免费层跑够以后，GroqCloud 给的下一档是 Developer Plan。按 token 计费，TPM 区间拉到 200K-1M，中小规模生产环境基本能覆盖住。具体单价嘛，控制台 Pricing 页自己翻一下就行，不同模型价格会浮动，说实话我也没背下来。

再往上走就是 Enterprise，支持私有部署、定制 SLA、还有专属支持团队。你看，这个档位明显是冲着对数据合规有严格要求的大客户去的。

我觉得付费档的好处不只是配额变大这么简单。请求优先级、模型可访问范围、并发上限……好几个维度都会跟着提升。

免费层说白了就是试用期。Developer 是试用期结束后的自然过渡。企业版？那才是真正"谈生意"的入口。三档分得挺清楚，没有硬推你升级的意思。

给动手能力强的人：一份上手清单

末尾给准备开搞的读者一份极简清单，按顺序走完就能跑通：

打开 console.groq.com，用邮箱注册，不需要信用卡。
进控制台 → API Keys，生成一把 key，存进环境变量。
把现有 OpenAI 调用代码的 base_url 改成 https://api.groq.com/openai/v1，model 字段填 llama-3.1-8b-instant，这个免费配额最宽松。
跑一个最简单的 chat.completions.create，确认能拿到返回。
把 model 换成 llama-3.3-70b-versatile 或者 whisper-large-v3-turbo，体验不同模型的免费配额。
把免费层接入 Cursor、Cline 或者自建 Agent 框架，对比首字延迟。

整个过程不超过 10 分钟，0 成本。

说实话，免费层给得最大方的地方是它"没有套路"。没有隐藏扣费、没有自动续费、没有到期提醒，跑多少用多少，撞墙了就停。把它当成本地工具，而不是云服务，会用得更顺手。