别再死磕 OpenClaw 了!这只青蛙才是效率天花板
- 工具收集
- 15小时前
- 14热度
- 0评论
现在网上铺天盖地都是关于 OpenClaw 的讨论,看得我都有些疲劳了。说实话,小龙虾在会的人手里确实很好玩,但到了普通用户这里,也没那么好上手。
如果你是一名创作者,只想在日常做内容时获得更高的效率,其实没必要去折腾那些门槛不低的部署和系统接管。
真正让人头疼的,往往还是文案、配音、生图、剪辑这些具体环节之间的来回切换。
直到前两天,我偶然听说圈子里有人在讨论一只“青蛙” — Ribbi。

官网:https://ribbi.ai
它给我的第一感觉,是轻。不用部署,不用折腾环境,打开浏览器就能直接上手。
它也不是那种恨不得把所有功能都塞进去的“大而全”工具,更不像 OpenClaw 那样一上来就想接管你的整个系统。
Ribbi 更像是安静地待在浏览器里,把创造流程中原本零散的步骤,慢慢串成了一条顺手的流程。
抛弃“全家桶”,回到工作流本身
在看到 Ribbi 首页的第一眼,大伙应该都能感受到它和其他 AI 工具气质的不同。
它舍弃了占据网页绝大部分位置的对话框,取而代之的,是按“社交媒体”、“视频”、“视觉设计”等场景分门别类的、一个个具体的 Skill 卡片。

这些卡片不是简单的功能按钮,而是代表着一条条被模型真实跑通过、验证有效的组合路径。之所以把功能如此“路径化”,其实是为了解决一个目前 AI 工具普遍存在的通病。
现在市面上有太多被称为“全家桶”的 AI 平台,界面上摆满了功能图标。用久了就会发现,底层的模型各干各的,互不相识,我们依然需要手动把上一个工具的产出复制喂给下一个工具。
而在 Ribbi 这里,第一步要做的,是让工具先认识彼此。
让工具认识彼此
Ribbi 提供的解法很安静。它的底层埋下了一百多个工具调用能力(Tool calls)。
懂行的朋友可能要问了:一般的模型哪怕只联动两三个工具,上下文稍微一长就很容易报错失控,它接入了 100 多个工具,怎么保证跑长任务时不崩溃?
这就不得不提它底层的那套 Context Layer 架构设计了。这套架构通过分层管理不变和可变的上下文,可以扛住海量工具联动的压力,不仅让这 100 多个工具在极低的 token 消耗下保持稳定运行,还不会跑偏。

在这套架构的支撑下,只要你给出初始素材和最终想要的效果,系统的调度引擎就会默默接管一切。
这种模型间互相打配合的默契,在具体的场景流转里非常清晰。莫理也从上面官方精选的skill中挑了几个有趣的,大伙一看就知道是怎么回事了。
① 歌曲翻唱
以往要做一首异国语言的翻唱,我们需要先提取视频音轨,塞进分离工具抠出人声,再去盯着翻译软件折腾出一份能对上旋律、且押韵的中文词,最后还要在不同的音频模型里反复调试效果。
但是现在,这套复杂的工序被缩减成了一次简单的“丢链接”,连音频文件都不需要我们给,它自己就能搞定。

在搞定了音频后,剩下的也不用操心。
系统会自己在后台抓取音轨,根据曲调改写出顺口的中文词,再调动模型完成演唱。中间即便遇到接口响应超时,它也会悄悄启动重试机制,直到把成品交到你手里。

② 视频多语言配音
像这个视频的多语言配音,流转逻辑也是一脉相承的极简。丢一段视频切片的链接,指定好语种,剩下的就任由进度条自己去跑了。


③ 复刻短视频
又比如我这里丢给它一个 TikTok 上的跳舞视频链接,附带要求“把人物换成青蛙”。

它先是逐帧分析了原视频动作,接着调用工具画出了一只站立的青蛙,最后再把这只青蛙和提取出的动作轨迹一起合成,把原视频的舞蹈动作完整复刻到了这只青蛙身上,同样是一键即可。
这三个案例虽然功能各异,却都指向一个核心体验:整条链路都在同一个对话流里完成,没有断点,不用反复对齐上下文。
甚至得益于它底层的 Context Layer 框架,在 token 消耗上要比Openclaw 还节省73%。
沉淀重复的动作
在我们日常的内容创作,其实有一大半是固定模式的重复流转。
比如做产品宣发,标准动作通常是:提取产品卖点、生成多视角白底图、套用版式生成海报、配上文案。在普通平台上,哪怕你昨天刚跑通一遍,今天依然需要把这些步骤重新点一次。
但是 Ribbi 走的是一条叫做 AGC(Agent Generated Content) 的路径。当你在里面跑通了一套有效的组合路径后,你就能直接把它固化成自己的专属 Skill。

下次遇到类似的场景,你只需要丢给它一张新的产品图,它能按跑通的流程自动往下走。
自主进化的品味
目前的大部分工具其实都是在执行层面帮助我们解决问题,但是在创作中还有一个很难用语音描述的东西:品味。
你也说不清楚为什么中意某张图,但你的眼睛知道。
Ribbi 的 Pond 模块就是专门用来处理这种“不可言说”的。

通过在浏览器上安装一个它们的插件,就能把我们平时看见的一些“对胃口”的图片保存进 Ribbi 中。


之后 Ribbi 就会在背后分析这些图片反推出提示词,帮我们轻松得到同款图片。同时还会提取它们的视觉风格,在线训练审美偏好。


图存得多了,它生成的东西就也会相对的更符合我们的品味。
不妨直接看看在吃透了我的审美偏好后,它最近帮我产出的一组图


写在最后
顺带一提,Ribbi 并不局限在电脑浏览器里。它其实可以像 OpenClaw那样接入微信 Bot。这就让物理空间的解放成为可能:你在通勤的地铁上随手往对话框里扔个链接或者发条语音指令,它就会在云端默默把活儿干完,等你到工位时直接看成品。
目前 Ribbi 还在测试阶段,仅限邀请。有兴趣的朋友可以去官网,在首页提交 Waitlist。

过去这一年,我们花费了太多的精力去钻研如何发号施令、如何写出完美的 Prompt 来“驯服”机器。
但或许效率的终局,就应该是系统足够懂你,懂到你不再需要去刻意控制。
转自:https://mp.weixin.qq.com/s/59vPc9K1jsFO83DlyYDEiQ