GroqCloud免费API — GroqCloud免费层实测:3000 token/秒到底能干什么

最近一个月吧,AI圈里有个名字传得挺开的——GroqCloud。

你发现没,现在大部分公司都在比参数多大、模型多牛。这家公司偏不,它就死磕一个字:

GroqCloud 是一款基于自研 LPU 芯片的大模型推理服务平台,官方数据显示其推理速度达到 300-1000 token/秒,主流 GPU 平台基本卡在 50-150 token/秒。

同样丢一句话给 LLaMA,人家 GroqCloud 两秒出结果,对面呢,还在转圈圈加载中……

速度快只是它的一半卖点。真正让独立开发者和个人玩家上头的是另一件事:GroqCloud 长期开放完全免费的 API 层,不用绑信用卡,注册就直接用。免费嘛,大模型圈不少见。但是免费还这么快,就有点离谱了。

免费层到底免了哪些东西

打开 console.groq.com 注册个账号,一把 API key 就到手了。全程不用掏钱。免费层给出来的限制主要四条:

  • 每天 14,400 次请求,算下来大概每秒 0.6 次
  • 每分钟 RPM 30 次
  • TPM 看模型,低的 6K,高的能到 70K,不同模型差挺多
  • 超了就给你返回 HTTP 429,带个 retry-after 头告诉你等多久

你看,这几条放一起其实就决定了免费层适合干嘛——跑批量?不行。灌流量?也不行。但是拿来做实时交互、写代码 Copilot、语音转写这种节奏不紧不慢的场景,说实话绰绰有余。

还有个细节很多人不注意:token 配额是按模型单独算的。同一把 key,在 8B 模型上跑得飞起,你换成 70B 试试,立马就感觉吃紧了。是不是有点坑?

话说回来,免费层本来就不是做慈善的。说白了就是 GroqCloud 让你先跑起来,跑爽了再考虑要不要掏钱。先上车后买票,我觉得比硬塞三天试用码厚道多了。

哪些模型能免费跑

免费层按模型粒度分配资源,不是那种一刀切给个总配额的路子。下面这些数据扒自官方控制台公开页(2026年6月),你直接去后台也能对得上:

模型 RPM RPD TPM TPD
llama-3.1-8b-instant 30 14,400 6K 500K
llama-3.3-70b-versatile 30 1,000 12K 100K
meta-llama/llama-4-scout-17b-16e-instruct 30 1,000 30K 500K
openai/gpt-oss-120b 30 1,000 8K 200K
openai/gpt-oss-20b 30 1,000 8K 200K
qwen/qwen3-32b 60 1,000 6K 500K
qwen/qwen3.6-27b 30 1,000 8K 200K
whisper-large-v3 20 2,000 ASH 7.2K ASD 28.8K
whisper-large-v3-turbo 20 2,000 ASH 7.2K ASD 28.8K
groq/compound 30 250 70K
groq/compound-mini 30 250 70K

看完这张表,说实话,能看出不少门道:

8B instant 是真正的"日用款"。14,400 RPD 配上 6K TPM,普通开发者从早跑到晚基本没啥压力。

70B versatile 走的是"精品路线"——RPD 只有 1,000,看着少,但单次能吃下 12K token 上下文。跑长文档分析刚好够用,是不是还挺鸡贼的?

Whisper 系列独立计算。语音转写用的是 ASH/ASD 维度(音频时长秒数),RPM 20、RPD 2,000。做会议记录、播客字幕这些活儿完全够。

groq/compound 配额最紧。RPD 仅 250,TPM 却拉到 70K,明显是面向复杂 Agent 工作流的限量款。

模型切换不需要重新申请 key,直接在请求里改 model 字段就行。

免费层的设计逻辑其实挺清楚的——小模型让你日常跑爽,大模型让你按需薅配额。把每一种模型都当成"工具"而不是"全能选手",心态会轻松很多。

两行代码接入 OpenAI 兼容接口

GroqCloud 的接入门槛低到几乎不存在。它的 API 完整兼容 OpenAI 协议,base_url 换成下面这串地址,原来的代码就能直接跑:

https://api.groq.com/openai/v1

以 Python 为例,切换只改两行:

import os
from openai import OpenAI

client = OpenAI(
base_url="https://api.groq.com/openai/v1",
api_key=os.environ.get("GROQ_API_KEY"),
)

JavaScript / Node 端同理,把 baseURL 改成同一个地址,header 里塞 GROQ_API_KEY 就完事了。

已对接 OpenAI SDK 的项目,包括 LangChain、LlamaIndex、Cline、Cursor 自定义 Provider,都能直接换地址复用——说实话,这对已经在跑 OpenAI 的团队来说简直是福音,迁移成本接近零。

API key 在控制台 console.groq.com → API Keys 页面一键生成,生成后立即可用,过期或泄露了随时吊销,挺省心的。

兼容 OpenAI 协议真的是这家公司最聪明的一招。用户不用学新东西,存量代码不用改,连调试工具都能继续用 OpenAI 那一套。你猜怎么着?连 LangChain 和 LlamaIndex 这种大框架都能无缝切过去,基本就是换了个地址的事儿。

真实使用场景:开发者拿它做什么

光看数字不直观,看看社区里大家怎么用:

场景一:个人开发者跑 LLaMA 3.3 70B 测试

很多人开发 Agent 的时候不想烧钱,70B 的聪明程度够用了。1,000 RPD 拿来写 demo、跑回归、写单测,一整天都打不完。再配上那个看家的速度优势,原本在 GPU 上跑半天的回归脚本,放到 GroqCloud 上不到一小时就能跑完。说实话,这个效率提升我自己看到的时候都愣了一下。

场景二:Whisper 语音转写当免费 OCR

录音文件丢过去,秒级返回带时间戳的文本。RPD 2,000 配上 ASH 7,200(一小时音频大约 7,200 秒),转个播客、长会绰绰有余。做自媒体、播客剪辑的人,把这一档当免费的字幕生成器用,长期用下来一年能省下一笔不小的人力成本。你看,这不比请人手动打字幕香多了?

场景三:把 30 RPM 当 LLM 加速器接入 Cursor/Cline

本地 IDE 写代码的时候,单次请求往往就发一两条。把 30 RPM 接进 Cursor 或者 Cline 的自定义 Provider,编辑器不改架构就能跑出比直接调 OpenAI 快几倍的首字延迟。写代码的时候看着 AI 跟手补全,比盯着它转圈舒服太多了……这种体验一旦回不去就真的回不去了。

场景四:构建原型阶段的对话产品

Demo 阶段流量不大,但用户对响应速度是真的敏感。免费层 0.6 RPS 平均、300+ token/秒的速度,做个本地 AI 助手 demo 给客户演示,效果远比卡顿强。这种"快"在投资人路演、用户调研、内部汇报里,往往比模型能力本身更打动人心。我倒是认为,第一印象这东西,速度比参数重要。

场景五:学生和研究者跑论文级实验

高校、研究机构里的研究者做 prompt 工程、RAG 评测、对齐实验,本地显卡跑不动大模型,外网 API 又要钱。免费层正好填这个口子,把实验代码的 base_url 切换一下,整篇实验的成本就压到接近零了。老实讲,对学生党来说这真的太关键了。

免费层真正舒服的地方就在于"刚刚好"。目标定在 demo、原型、本地工具的话,14,400 RPD 够用一整天;想拿它跑生产级流量?那还是得看付费档。

免费层也有边界:超限会怎样

免费层不是无限量供应的,撞到配额会直接给你返回 429。错误长这样:

HTTP/1.1 429 Too Many Requests
retry-after: 23

retry-after 这个头会告诉你具体还要等几秒再试。不过很多人踩坑,就是因为没搞清自己到底撞了哪种限速。

  • 撞 RPM 限速:通常几秒到几十秒就恢复了,逻辑重试一下就行,问题不大。
  • 撞 RPD 限速:这个要等到第二天 UTC 0 点才重置。如果你在国内,UTC 0 点对应北京时间早上 8 点,正好是一天工作的开始,你说巧不巧?
  • 撞 TPM 限速:把 prompt 拆短,或者切到上下文更宽松的模型。比如从 8B 切到 70B 的时候要小心——前者 6K TPM,后者 12K TPM,看着大了一倍对吧?但 70B 的 RPD 只有 1,000,长文档场景反而要省着点用。
  • Token 计费透明:免费层不扣钱,但所有请求都会进 TPM/TPD 计数窗口。即使没成功生成,只要请求发出去了,就算一次配额消耗。所以客户端要做好超时和重试的兜底,别不当回事。
  • 并发限制:免费层默认并发数不高,多线程同时打过去也会撞墙。建议客户端内置一个简单的信号量或者队列,别一股脑全丢过去。

说实话,免费层的限制是透明的、可预测的。这比某些平台"先用着再说、突然锁号"的玩法靠谱多了。

升级路径:付费用 Dev 还是直接上企业

免费层跑够以后,GroqCloud 给的下一档是 Developer Plan。按 token 计费,TPM 区间拉到 200K-1M,中小规模生产环境基本能覆盖住。具体单价嘛,控制台 Pricing 页自己翻一下就行,不同模型价格会浮动,说实话我也没背下来。

再往上走就是 Enterprise,支持私有部署、定制 SLA、还有专属支持团队。你看,这个档位明显是冲着对数据合规有严格要求的大客户去的。

我觉得付费档的好处不只是配额变大这么简单。请求优先级、模型可访问范围、并发上限……好几个维度都会跟着提升。

免费层说白了就是试用期。Developer 是试用期结束后的自然过渡。企业版?那才是真正"谈生意"的入口。三档分得挺清楚,没有硬推你升级的意思。

给动手能力强的人:一份上手清单

末尾给准备开搞的读者一份极简清单,按顺序走完就能跑通:

  1. 打开 console.groq.com,用邮箱注册,不需要信用卡。
  2. 进控制台 → API Keys,生成一把 key,存进环境变量。
  3. 把现有 OpenAI 调用代码的 base_url 改成 https://api.groq.com/openai/v1,model 字段填 llama-3.1-8b-instant,这个免费配额最宽松。
  4. 跑一个最简单的 chat.completions.create,确认能拿到返回。
  5. 把 model 换成 llama-3.3-70b-versatile 或者 whisper-large-v3-turbo,体验不同模型的免费配额。
  6. 把免费层接入 Cursor、Cline 或者自建 Agent 框架,对比首字延迟。

整个过程不超过 10 分钟,0 成本。

说实话,免费层给得最大方的地方是它"没有套路"。没有隐藏扣费、没有自动续费、没有到期提醒,跑多少用多少,撞墙了就停。把它当成本地工具,而不是云服务,会用得更顺手。

常见问题

GroqCloud 免费层真的完全免费吗

真的完全免费。不需要绑信用卡,注册就能直接用,没有隐藏扣费也没有自动续费。撞到配额就返回 429,不会产生任何费用。老实讲,这种"真免费"在现在这个环境下还挺少见的,对吧?

免费层速度有多快

官方数据显示推理速度达到 300-1000 token/秒,主流 GPU 平台基本在 50-150 token/秒。实际体验中,8B 模型的首字延迟通常在 100-300 毫秒之间,体感很跟手。

免费层能跑生产环境吗

不太建议。免费层配额有限(日均 14,400 次请求),适合 demo、原型、本地工具、个人项目。生产级流量建议升级到 Developer Plan,TPM 区间拉到 200K-1M。

转自:微信公众号