BrowserAct:让AI Agent真正能逛网页的神器,GitHub 2.8k Star
- 免费干货
- 3小时前
- 8热度
- 0评论
Agent的短板,不在脑子在"手"
说起AI Agent,大部分人张口就是模型多强、上下文窗口多长。但我见过Agent翻车的情况,说实话,十有八九真不是因为脑子不够用——是手伸不出去。
需要登录的页面进不去,验证码拦住直接卡死,动态渲染的内容愣是抓不到……模型参数再大,这些过不了也是白搭。

今天要聊的这个东西,就是冲着解决这些去的。BrowserAct,一个专门搞浏览器自动化的CLI工具,GitHub上已经2.8k Star了。
BrowserAct是什么
大部分Agent操作浏览器,靠的是模型的"视觉能力"——截图、识别、点击。这方案能用,但脆弱得很。
BrowserAct走的是命令行路线。它从环境伪装、执行策略、人工协作三个层面,系统性地提升Agent操作浏览器的成功率。

三层递进策略,环环相扣
BrowserAct的设计哲学说起来挺朴素的:能伪装就伪装,伪装不了就硬刚,硬刚不了就叫人。
三层之间是递进关系——一层搞不定,自动掉到下一层接着试,不会卡死。

一、环境层:给Agent换张"脸"
这一层干的事就一个——让Agent看起来像真人。对吧,简单粗暴但有效。
BrowserAct通过浏览器指纹伪装和动态网络身份,把Agent的浏览环境伪装得跟普通用户几乎一致。每个账号还能绑定独立的登录空间和网络路径,多账号并行跑也不会串。说实话,这点我觉得是基础中的基础,环境都搞不稳后面全是白搭。
实际能解决什么?
- 同一个账号长期登录,不会因为"自动化特征"被平台封号
- 同时运营多个店铺、社媒账号或地区站点,每个账号独立干净的环境
- Cookie和登录状态长期稳定,不用反复扫码或重新登录……这个真的省了很多麻烦

二、执行层:遇神杀神
那环境伪装被识破了怎么办?
执行层来硬刚。
BrowserAct能自动处理常见的反机器人检测,降低被识别为自动化行为的概率。你看,这就是第二道防线——伪装这招被破了,咱就直接正面刚。
实际能解决什么?
- 登录需要人机验证的网站,Agent自动通过,不用你手动点"我不是机器人"
- 抓取需要登录态才能看到的数据——后台数据、会员内容,Agent能自动跨越验证屏障
- 遇到复杂页面检测时,Agent会自主尝试突破,而不是直接放弃任务。我倒是认为这点挺关键的,很多工具一检测到验证就摆烂了,它不会

三、人工层:AI搞不定就摇人
有些事AI确实干不了。短信验证码、扫码确认、企业SSO审批……这些环节只有人类能操作,没什么好逞强的。
但BrowserAct的处理方式很聪明:它不会终止整个任务,而是生成一个远程协作链接。你在任何设备上打开这个链接,完成验证后,Agent从刚才断点继续往下跑,不用从头再来。为什么这么说呢?因为很多场景你折腾半天就差最后一步验证,要是从头来一遍真的会崩溃。
实际能解决什么?
- AI遇到短信验证码时不会终止任务,你输一下验证码它接着干
- 企业后台需要SSO登录或敏感审批的场景,你帮它过一道,后面全自动
- 复杂长流程任务里,AI和人工交替配合,已完成的步骤不用重新执行

总结一下这三层逻辑:先伪装→伪装被识破就自动过验证→验证也搞不定就呼叫人工。三层兜底,Agent操作浏览器的成功率直接拉满。
额外能力
三层之外,BrowserAct还有几个实用的能力,顺便聊聊:
- 多任务并发:同一浏览器环境下同步执行多个任务,各窗口共享Cookie和登录状态
- 多账号隔离:每个账号运行在独立的Stealth浏览器中,互不影响
- 三种浏览器模式:
- Chrome模式:复用本地登录态,适合需要登录的场景
- Stealth隐私模式:每次会话新指纹+代理,适合大批量数据抓取,自动轮换IP无残留
- Stealth固定身份模式:隐私模式基础上提供稳定指纹+IP,适合多账号长期独立运行
- 技能沉淀:独立安装的Skill,把跑通的流程沉淀为可复用技能,下次直接跑Skill就行。老实讲这个功能越用越香,跑通一次后面就不用重复配置了

实战场景演示
① 电商数据监测
618刚过,电商人应该都懂——监测同行数据是日常任务。但电商平台的反制机制很严,普通Agent根本进不去,你猜怎么着?我拿BrowserAct跑了一下试试。

因为电脑没登录过,它找不到登录态,触发了人机接力。

接力方式是发一条链接给你——这是BrowserAct的云实例,相当于云端虚拟机。任何设备打开都行,扫码登录完关掉页面就可以。

登录完成后它自动继续任务。每一步操作都有汇报,你在Agent端实时看到它在干嘛,这个体验说实话挺踏实的。

搜索词输错了?它自己检查并纠正了。

然后自己按销量排序。

最终成功拿到了销量前10的溜溜梅价格数据。

整个过程除了初始登录需要人机接力,其余反制机制全部自动搞定。
如果这任务每天要跑好几次呢?用技能沉淀能力,把流程存成Skill,后续直接跑Skill,省Token省时间,效果还稳定。

安装技能很简单,在Agent里输入:
安装这个技能,链接:https://github.com/browser-act/skills/tree/main/browser-act-skill-forge,并验证技能是否可用。
② 多店铺管理
开多家店铺的商家都懂,频繁切换账号太痛苦了对吧?
BrowserAct可以创建多个隐私浏览器,每个账号隔离在自己的专属环境里。
我直接问Agent怎么操作,它给了两个方案:

我选了方案二,然后它问了我几个问题:

接下来需要购买静态代理——给浏览器分配一个固定IP,让账号处于稳定环境,不触发平台风控。

长期商用的话建议买一个,用一次的话用本地地址就行。

它会把购买链接发给你。不过不一定非在BrowserAct买,其他地方买的静态代理也行,把ID告诉Agent就可以。确认后,一个额外的隐私浏览器就创建好了。
③ 自媒体多平台分发
做自媒体的都知道,同一篇内容要发到多个平台,复制粘贴太累了,老实讲我之前也是这么干的……后来用BrowserAct跑这个任务,感觉完全不一样了。
因为浏览器已经登录过小红书和知乎,让它用Chrome模式直接复用登录态就行。

成功进入小红书主页,没有触发人机接力,也没有触发反制机制,直接开始发帖,是不是挺丝滑的?

然后就是找发布按钮、编辑标题、编辑正文……一步步来。

最后成功发出去了。让我意外的是,它还自己做了封面图,内容不是纯文字而是生成了图片格式,这个细节我倒是没想到。


知乎那边也顺利发送完成。


安装超简单
BrowserAct 这个技能是开源免费的,大部分功能都不花钱。不过你要是用到代理功能——比如搞个绑了静态代理的隐私浏览器——那才会产生费用。说实话,大部分场景下根本碰不到这个。

安装方法超简单:打开官网,点一下中间那个白色按钮👇

然后把复制的提示词丢给你的 Agent,它自己会装好。之后你让它执行浏览器操作的时候,就会自动调用这个技能了。
你也可以直接跟 Agent 说:
安装browser-act这个技能,链接:https://github.com/browser-act/skills/tree/main/browser-act,安装完成后验证一下它是否可用。
写在最后
说实话,现在做 Agent 最难的地方,真不是模型推理够不够强,而是跟真实世界打交道那段"最后一公里"。
你猜卡在哪儿?验证码、短信确认、这些环节,还是得人来操作。绕不过去的。
所以 BrowserAct 的设计思路我觉得挺务实的:自动优先、人工兜底、无缝续接。
对那些正在把 Agent 往生产环境里搬的团队来说,这种不吹牛的做法,感觉比"全自动化"那种噱头靠谱多了。长期看更是如此。
BrowserAct官网:https://www.browseract.ai/ML
GitHub:https://github.com/browser-act/skills
FAQ
BrowserAct是免费的吗?
技能开源免费,大部分功能都不收费。不过你要是用到代理功能,比如创建一个绑定了静态代理的隐私浏览器,那就会产生费用了。
BrowserAct能完全替代人工操作浏览器吗?
不能。短信验证码、扫码确认、企业SSO审批这些场景,还是得人来操作。BrowserAct 的设计本就不是全自动,而是自动优先、人工兜底、断点续接。这点要搞清楚。
BrowserAct适合哪些人用?
主要面向需要把 AI Agent 接入真实浏览器场景的团队和个人。电商数据监测、多店铺管理、自媒体分发、自动化测试……这些场景都能用,你看是不是跟你对得上?