多任务并发：同一浏览器环境下同步执行多个任务，各窗口共享Cookie和登录状态多账号隔离：每个账号运行在独立的Stealth浏览器中，互不影响三种浏览器模式： Chrome模式：复用本地登录态，适合需要登录的场景 Stealth隐私模式：每次会话新指纹+代理，适合大批量数据抓取，自动轮换IP无残留 Stealth固定身份模式：隐私模式基础上提供稳定指纹+IP，适合多账号长期独立运行技能沉淀：独立安装的Skill，把跑通的流程沉淀为可复用技能，下次直接跑Skill就行。老实讲这个功能越用越香，跑通一次后面就不用重复配置了

BrowserAct：让AI Agent真正能逛网页的神器，GitHub 2.8k Star

Q: 额外能力

多任务并发：同一浏览器环境下同步执行多个任务，各窗口共享Cookie和登录状态 多账号隔离：每个账号运行在独立的Stealth浏览器中，互不影响 三种浏览器模式： Chrome模式：复用本地登录态，适合需要登录的场景 Stealth隐私模式：每次会话新指纹+代理，适合大批量数据抓取，自动轮换IP无残留 Stealth固定身份模式：隐私模式基础上提供稳定指纹+IP，适合多账号长期独立运行 技能沉淀：独立安装的Skill，把跑通的流程沉淀为可复用技能，下次直接跑Skill就行。老实讲这个功能越用越香，跑通一次后面就不用重复配置了

Q: FAQ

BrowserAct是免费的吗？ 技能开源免费，大部分功能都不收费。不过你要是用到代理功能，比如创建一个绑定了静态代理的隐私浏览器，那就会产生费用了。 BrowserAct能完全替代人工操作浏览器吗？ 不能。短信验证码、扫码确认、企业SSO审批这些场景，还是得人来操作。BrowserAct 的设计本就不是全自动，而是自动优先、人工兜底、断点续接。这点要搞清楚。 BrowserAct适合哪些人用？ 主要面向需要把 AI Agent 接入真实浏览器场景的团队和个人。电商数据监测、多店铺管理、自媒体分发、自动化测试……这些场景都能用，你看是不是跟你对得上？

ivye
免费干货
3小时前
8热度
0评论

Agent的短板，不在脑子在"手"

说起AI Agent，大部分人张口就是模型多强、上下文窗口多长。但我见过Agent翻车的情况，说实话，十有八九真不是因为脑子不够用——是手伸不出去。

需要登录的页面进不去，验证码拦住直接卡死，动态渲染的内容愣是抓不到……模型参数再大，这些过不了也是白搭。

今天要聊的这个东西，就是冲着解决这些去的。BrowserAct，一个专门搞浏览器自动化的CLI工具，GitHub上已经2.8k Star了。

BrowserAct是什么

大部分Agent操作浏览器，靠的是模型的"视觉能力"——截图、识别、点击。这方案能用，但脆弱得很。

BrowserAct走的是命令行路线。它从环境伪装、执行策略、人工协作三个层面，系统性地提升Agent操作浏览器的成功率。

三层递进策略，环环相扣

BrowserAct的设计哲学说起来挺朴素的：能伪装就伪装，伪装不了就硬刚，硬刚不了就叫人。

三层之间是递进关系——一层搞不定，自动掉到下一层接着试，不会卡死。

一、环境层：给Agent换张"脸"

这一层干的事就一个——让Agent看起来像真人。对吧，简单粗暴但有效。

BrowserAct通过浏览器指纹伪装和动态网络身份，把Agent的浏览环境伪装得跟普通用户几乎一致。每个账号还能绑定独立的登录空间和网络路径，多账号并行跑也不会串。说实话，这点我觉得是基础中的基础，环境都搞不稳后面全是白搭。

实际能解决什么？

同一个账号长期登录，不会因为"自动化特征"被平台封号
同时运营多个店铺、社媒账号或地区站点，每个账号独立干净的环境
Cookie和登录状态长期稳定，不用反复扫码或重新登录……这个真的省了很多麻烦

二、执行层：遇神杀神

那环境伪装被识破了怎么办？

执行层来硬刚。

BrowserAct能自动处理常见的反机器人检测，降低被识别为自动化行为的概率。你看，这就是第二道防线——伪装这招被破了，咱就直接正面刚。

实际能解决什么？

登录需要人机验证的网站，Agent自动通过，不用你手动点"我不是机器人"
抓取需要登录态才能看到的数据——后台数据、会员内容，Agent能自动跨越验证屏障
遇到复杂页面检测时，Agent会自主尝试突破，而不是直接放弃任务。我倒是认为这点挺关键的，很多工具一检测到验证就摆烂了，它不会

三、人工层：AI搞不定就摇人

有些事AI确实干不了。短信验证码、扫码确认、企业SSO审批……这些环节只有人类能操作，没什么好逞强的。

但BrowserAct的处理方式很聪明：它不会终止整个任务，而是生成一个远程协作链接。你在任何设备上打开这个链接，完成验证后，Agent从刚才断点继续往下跑，不用从头再来。为什么这么说呢？因为很多场景你折腾半天就差最后一步验证，要是从头来一遍真的会崩溃。

实际能解决什么？

AI遇到短信验证码时不会终止任务，你输一下验证码它接着干
企业后台需要SSO登录或敏感审批的场景，你帮它过一道，后面全自动
复杂长流程任务里，AI和人工交替配合，已完成的步骤不用重新执行

总结一下这三层逻辑：先伪装→伪装被识破就自动过验证→验证也搞不定就呼叫人工。三层兜底，Agent操作浏览器的成功率直接拉满。

额外能力

三层之外，BrowserAct还有几个实用的能力，顺便聊聊：

多任务并发：同一浏览器环境下同步执行多个任务，各窗口共享Cookie和登录状态
多账号隔离：每个账号运行在独立的Stealth浏览器中，互不影响
三种浏览器模式：
- Chrome模式：复用本地登录态，适合需要登录的场景
- Stealth隐私模式：每次会话新指纹+代理，适合大批量数据抓取，自动轮换IP无残留
- Stealth固定身份模式：隐私模式基础上提供稳定指纹+IP，适合多账号长期独立运行
技能沉淀：独立安装的Skill，把跑通的流程沉淀为可复用技能，下次直接跑Skill就行。老实讲这个功能越用越香，跑通一次后面就不用重复配置了

实战场景演示

① 电商数据监测

618刚过，电商人应该都懂——监测同行数据是日常任务。但电商平台的反制机制很严，普通Agent根本进不去，你猜怎么着？我拿BrowserAct跑了一下试试。

因为电脑没登录过，它找不到登录态，触发了人机接力。

接力方式是发一条链接给你——这是BrowserAct的云实例，相当于云端虚拟机。任何设备打开都行，扫码登录完关掉页面就可以。

登录完成后它自动继续任务。每一步操作都有汇报，你在Agent端实时看到它在干嘛，这个体验说实话挺踏实的。

搜索词输错了？它自己检查并纠正了。

然后自己按销量排序。

最终成功拿到了销量前10的溜溜梅价格数据。

整个过程除了初始登录需要人机接力，其余反制机制全部自动搞定。

如果这任务每天要跑好几次呢？用技能沉淀能力，把流程存成Skill，后续直接跑Skill，省Token省时间，效果还稳定。

安装技能很简单，在Agent里输入：

安装这个技能，链接：https://github.com/browser-act/skills/tree/main/browser-act-skill-forge，并验证技能是否可用。

② 多店铺管理

开多家店铺的商家都懂，频繁切换账号太痛苦了对吧？

BrowserAct可以创建多个隐私浏览器，每个账号隔离在自己的专属环境里。

我直接问Agent怎么操作，它给了两个方案：

我选了方案二，然后它问了我几个问题：

接下来需要购买静态代理——给浏览器分配一个固定IP，让账号处于稳定环境，不触发平台风控。

长期商用的话建议买一个，用一次的话用本地地址就行。

它会把购买链接发给你。不过不一定非在BrowserAct买，其他地方买的静态代理也行，把ID告诉Agent就可以。确认后，一个额外的隐私浏览器就创建好了。

③ 自媒体多平台分发

做自媒体的都知道，同一篇内容要发到多个平台，复制粘贴太累了，老实讲我之前也是这么干的……后来用BrowserAct跑这个任务，感觉完全不一样了。

因为浏览器已经登录过小红书和知乎，让它用Chrome模式直接复用登录态就行。

成功进入小红书主页，没有触发人机接力，也没有触发反制机制，直接开始发帖，是不是挺丝滑的？

然后就是找发布按钮、编辑标题、编辑正文……一步步来。

最后成功发出去了。让我意外的是，它还自己做了封面图，内容不是纯文字而是生成了图片格式，这个细节我倒是没想到。

知乎那边也顺利发送完成。

安装超简单

BrowserAct 这个技能是开源免费的，大部分功能都不花钱。不过你要是用到代理功能——比如搞个绑了静态代理的隐私浏览器——那才会产生费用。说实话，大部分场景下根本碰不到这个。

安装方法超简单：打开官网，点一下中间那个白色按钮👇

然后把复制的提示词丢给你的 Agent，它自己会装好。之后你让它执行浏览器操作的时候，就会自动调用这个技能了。

你也可以直接跟 Agent 说：

安装browser-act这个技能，链接：https://github.com/browser-act/skills/tree/main/browser-act，安装完成后验证一下它是否可用。

写在最后

说实话，现在做 Agent 最难的地方，真不是模型推理够不够强，而是跟真实世界打交道那段"最后一公里"。

你猜卡在哪儿？验证码、短信确认、这些环节，还是得人来操作。绕不过去的。

所以 BrowserAct 的设计思路我觉得挺务实的：自动优先、人工兜底、无缝续接。

对那些正在把 Agent 往生产环境里搬的团队来说，这种不吹牛的做法，感觉比"全自动化"那种噱头靠谱多了。长期看更是如此。

BrowserAct官网：https://www.browseract.ai/ML

GitHub：https://github.com/browser-act/skills

FAQ

BrowserAct是免费的吗？

技能开源免费，大部分功能都不收费。不过你要是用到代理功能，比如创建一个绑定了静态代理的隐私浏览器，那就会产生费用了。

BrowserAct能完全替代人工操作浏览器吗？

不能。短信验证码、扫码确认、企业SSO审批这些场景，还是得人来操作。BrowserAct 的设计本就不是全自动，而是自动优先、人工兜底、断点续接。这点要搞清楚。

BrowserAct适合哪些人用？

主要面向需要把 AI Agent 接入真实浏览器场景的团队和个人。电商数据监测、多店铺管理、自媒体分发、自动化测试……这些场景都能用，你看是不是跟你对得上？