Skip to content

Browser Use

3.3/5Overall Score
3.0/5Recommendation
activeStatus
DIMENSIONS能力易用性性能代码质量文档社区成熟度可扩展性安全性推荐度
GitHubai-programs/agent-infrastructurePythonChecked 2026-05-31

Browser Use

给 AI agents 使用真实网页的 Python browser-automation infrastructure:本地可控、云端可托管,能力很强;但浏览器/账号/云 profile 权限面极高,生产采用必须按高危工具治理。

状态: active · 总分: 3.3/5 · 推荐度: 3/5 核验版本: commit 834269609082d187ca0250de2c06d93799dac92d;GitHub / docs / local clone 快照 2026-05-31 验证边界: 本轮未安装 package、未启动 Chromium、未跑 cloud sandbox task、未同步真实浏览器 profile/cookies、未复现 BU Bench;能力和性能结论按文档/源码可见性保守判断。

一句话总结

Browser Use 是 AI agent 访问真实 Web 的 browser-control layer:它把页面状态、截图、DOM/可点击元素、Playwright/CDP 控制、LLM action loop、CLI、Claude Code skill、cloud browser/session 等组合成 agent-native primitive,值得收录;但凡能“替你上网”的工具,也天然能替你误点、泄密、绕到内网,故推荐度必须保守 [GH:readme][GH:cli][GH:cloud]。

总体评价

这个仓库应归入 ai-programs/agent-infrastructure。它不是一个最终用户聊天助手,也不是传统爬虫;它提供的是 agent runtime 中的 browser use substrate:让 LLM/agent 能观察网页、选择动作、控制浏览器、读取页面状态、上传下载文件、复用 profile,并通过本地 CLI/SDK 或云端 sandbox 完成网页任务 [Docs:intro][Docs:browser-config][GH:cli]。

从工程信号看,Browser Use 已不是 demo repo。本地扫描有 486 个 tracked files、约 99k Python LOC、11 个 workflows、104 个 test-ish 文件;pyproject 中有 ruff、pyright、pytest 配置,依赖覆盖 Playwright/CDP、模型 providers、MCP、PDF/DOCX/markdown 处理等 [GH:local-scan][GH:pyproject][GH:languages]。GitHub 快照显示 96k+ stars、10k+ forks、126 个 releases、1788 个 merged PRs,社区可见度很高 [GH][GH:api][GH:graphql]。

但 repo/product 边界必须写清楚:README 和 docs 越来越强调 Browser Use Cloud、ChatBrowserUse、sandbox、hosted browsers、proxy/captcha/stealth/profile sync 等商业云能力;开源库可本地运行,云端能力则涉及 API key、billing、远程浏览器、上传 cookie/profile、保存任务与日志 [GH:readme][GH:cloud][Docs:production]。这会显著改变隐私和安全模型。

我的判断:它值得成为 wiki 中 browser agent infrastructure 的重点条目;可试用、可研究、可在隔离账号中做自动化;但不应未经隔离地操作生产账号、支付系统、云控制台、公司内网后台或个人高价值账户。

推荐度:3/5

推荐度 3/5。对 Develata,Browser Use 很值得分析:它是 browser agent 生态的关键样本,也能帮助理解 UI-TARS、Firecrawl、OpenCLI、MCP browser tools 等项目的边界差异。作为工具使用,则建议从只读/低权限任务开始,小步试用。

给 3 而不是 4 的原因:

  1. 权限面太大:浏览器 agent 可以读页面、点击按钮、输入表单、上传文件、访问 cookies/profile,错误一次就可能产生真实副作用 [GH:cli][GH:cloud]。
  2. 云 profile/cookie 同步风险高:CLOUD.md 明确描述可上传本地 browser cookies/profile 到云端用于认证任务;这在便利性之外也构成重大数据托管边界 [GH:cloud]。
  3. 历史有 critical advisoryallowed_domains 曾因 URL auth username 绕过而导致 internal/localhost 访问风险,虽影响旧版并已给 patched version,但说明 allowlist/SSRF/内网边界是此类项目核心风险 [GH:advisory]。
  4. 性能 claim 未复现:README 的 BU Bench 和 “3-5x faster” 等说法本轮未跑 benchmark,不能转化为高性能实测结论 [GH:readme]。

推荐用法:阅读源码与 docs;用临时浏览器 profile、低权限测试账号、明确 allowlist、隔离网络环境跑 POC;生产前单独做 threat model。

优势

  1. 抽象抓得准:网页对 agent 来说不是纯文本,而是状态机;Browser Use 把状态、截图、可点击元素、动作、browser profile 和 LLM loop 组合成工具层 [GH:readme][Docs:agent-config]。
  2. 入口丰富:Python SDK、CLI、browser profiles/CDP、Claude Code skill、cloud API/sandbox 都存在,适合多种 agent workflow [GH:cli][GH:readme]。
  3. 工程信号较强:pyproject 有类型/测试/lint 配置,本地扫描有 11 个 workflows 与 104 个 test-ish 文件,release 频繁 [GH:local-scan][GH:pyproject][GH:graphql]。
  4. 模型与工具生态连接广:依赖中可见 OpenAI、Anthropic、Google、Groq、Ollama、MCP、CDP、文档处理包等,说明它不是只面向单一 provider [GH:pyproject]。
  5. 文档上手清楚:README 和 docs 给出 uv 安装、Agent 示例、CLI 示例、browser configuration 和 cloud sandbox 示例 [GH:readme][Docs:intro][Docs:production]。
  6. 云端产品化路径明确:Cloud docs 已覆盖 session/task/profile/API/billing/file outputs 等实际 product surface;这对研究 browser-agent productization 有价值 [GH:cloud]。

劣势

  1. 安全风险是第一位约束:浏览器自动化天然接触 cookies、登录态、文件、内网 URL、支付/提交按钮、下载与上传;不能按普通 Python library 风险看待。
  2. 云能力改变信任边界:上传 local browser profile/cookies 到 cloud 让自动化更好用,但也意味着认证材料进入第三方基础设施 [GH:cloud]。
  3. 历史 critical advisory 指向核心边界:allowlist 绕过不是边缘小 bug,而是 browser automation 安全模型里的核心问题 [GH:advisory]。
  4. 仍是 0.x 版本:latest release 为 0.12.9,API/行为仍可能快速变化;126 releases 说明迭代活跃,也说明稳定边界未必固定 [GH:api][GH:graphql]。
  5. 产品文档有营销压力:README/docs 强烈推荐 ChatBrowserUse/Cloud;开源库、官方模型和 hosted browser 的能力应分开评价 [GH:readme][GH:cloud]。
  6. 本轮未实测可靠性:没有跑真实任务、模型退化测试、captcha/Cloudflare、复杂登录、多标签/下载/上传等场景。

适合什么场景

  • 研究 browser agents、computer-use agents、web task automation 的基础组件设计。
  • 在隔离账号中做网页表单、公开网页查询、低风险重复操作、demo 自动化。
  • 给 coding agent 增加 browser inspection/action primitive,例如看网页 UI、截图、点击、提取页面元素 [GH:cli]。
  • 对比 UI-TARS、Firecrawl、OpenCLI、Playwright/MCP browser server 等项目的层次差异。
  • 需要 cloud browser/session API,且能接受第三方托管浏览器和 profile/cookie 风险的任务 [GH:cloud][Docs:production]。

不适合什么场景

  • 未经隔离地操作真实生产账号、支付、云控制台、公司后台、邮箱主号或含敏感 cookie 的浏览器 profile。
  • allowed_domains、prompt 约束或模型自律当成唯一安全边界。
  • 高合规/高敏数据环境中直接使用 cloud profile sync;除非完成供应商合规、数据流、日志保留与删除策略审查。
  • 需要确定性、可审计、低副作用的业务流程;网页 UI 自动化本身易受布局、弹窗、A/B test、网络状态影响。
  • 想用它替代 Firecrawl 这类 web-data extraction API;Browser Use 更偏 browser interaction / agent action loop,而非批量网页数据管线。

与类似项目对比

项目定位相对本项目
FirecrawlWeb data ingestion / scrape / crawl / parse APIFirecrawl 更偏把网页转成 LLM-ready data;Browser Use 更偏让 agent 真实控制浏览器状态
Context7文档上下文 grounding layerContext7 抓库/API 文档事实;Browser Use 操作开放网页和登录态浏览器
CLI-Anythingagent tool-access harnessCLI-Anything 让 agent 调用 CLI/tool;Browser Use 提供特定的 browser-control primitive
MCP ServersMCP reference server 集合MCP Servers 是协议/工具样板;Browser Use 可通过 CLI/skill/cloud 表面成为 browser tool provider
UI-TARS Desktop / Agent TARSGUI/browser/computer-use agent stackUI-TARS 更强调多模态桌面/GUI agent;Browser Use 更专注 browser automation library/cloud browser product

上述项目按 ai-programs/agent-infrastructure 同类范围做定位级对比,未按同一 10 维度框架深审;UI-TARS 是相邻 assistant-agents 条目,只作为 browser/computer-use 生态参照,不是同目录直接竞品。表格用于 taxonomy placement,不比较未归一化的质量、速度或安全性。


它能做什么

评分 4/5。

能力评分综合 OSS repo 与官方 Cloud product surface;若只看纯 OSS library/CLI、排除 Browser Use Cloud,实际能力应低半档。

  • Agent loopAgent(task=..., llm=..., browser=...) 让 LLM 根据任务和页面状态迭代控制浏览器 [GH:readme][Docs:agent-config]。
  • Browser control:可配置 headless/window/proxy/Playwright launch options 等浏览器参数 [Docs:browser-config]。
  • CLI automationopen/state/click/type/input/screenshot/cookies/eval/python/tab/wait/get 等命令覆盖常见浏览器操作 [GH:cli]。
  • Profile/CDP:CLI 支持 real Chrome profile、running Chrome auto-discovery、CDP URL/WebSocket 连接;这对复用登录态很强,也很危险 [GH:cli]。
  • Cloud sessions/tasks:Browser Use Cloud 支持 session、hosted browser、task API、live URL、file upload/download、profile sync、API key billing 等 [GH:cloud]。
  • Claude Code skill / agent-client integration:README 提供 Claude Code skill 安装路径,让 coding agent 直接获得 browser automation 工具 [GH:readme]。
  • 多模型支持:pyproject 依赖和 quickstart 覆盖 ChatBrowserUse、Google、Anthropic、OpenAI、Groq、Ollama 等 [GH:pyproject][GH:readme]。

不给 5 的原因:能力强但尚未证明跨复杂网站、登录态、captcha、支付/风控、长任务、多会话、异常恢复的稳定性;并且部分强能力属于 Browser Use Cloud product surface,而不是纯 OSS repo 可审计能力。

运行环境与资源占用

场景CPU内存存储说明
SDK orchestration / local script低;启动本地浏览器后为低到中SDK 本身小;启动 Chromium 后取决于页面与实例数Python >=3.11;实际资源主要来自浏览器进程和页面复杂度 [GH:pyproject]
CLI browser automation低到中数百 MB 到数 GB小到中persistent browser、screenshots、downloads、cookies/profile 会增加资源 [GH:cli]
Cloud sandbox/session本地很低本地很低本地小浏览器和 agent workload 在 Browser Use Cloud;本地承担 API 调用和结果处理 [GH:cloud][Docs:production]
高并发本地 browser agents随并发增长随 Chromium 实例增长随 traces/downloads 增长本轮未压测;应按 Playwright/Chromium 多进程 workload 估算
  • 运行时:Python >=3.11;Chromium/CDP/Playwright-like browser automation;CLI 可跨 macOS/Linux/Windows 使用 [GH:pyproject][GH:cli]。
  • 操作系统:Python 包跨平台;CLI 文档覆盖 macOS/Linux/Windows prerequisites [GH:cli]。
  • Dockerdocker_support: true 仅表示仓库中存在 Dockerfile / Dockerfile.fast / docker base-image Dockerfile;本轮未 build,也不把它视作已验证的一键生产 self-host stack [GH:local-scan]。
  • GPU:不需要本机 GPU;模型推理可走外部 provider 或本地模型,另计。
  • 外部依赖:LLM provider/API key、Chromium/browser、Browser Use Cloud(可选)、目标网站、可能的 proxy/captcha/stealth 服务。

performance 给 3:client/library 侧不重,但真实 browser automation 的资源效率取决于 Chromium 和网页复杂度;README/Cloud 的速度 benchmark 未复现,不能给 4。

上手体验

评分 4/5。

上手路径很顺:README 给出 uv 初始化、uv add browser-use、可选 uvx browser-use install、几行 Python 运行 agent;CLI 也有 one-line install、doctor/setup、template init 与基本 browser 操作 [GH:readme][GH:cli]。这对开发者相当友好。

扣一分来自现实任务复杂度:真正可靠地让 agent 操作网页,需要选择模型、管理 API key、处理浏览器 profile、登录态、验证码、下载上传、网站变更、超时、失败恢复、权限隔离。上手“能跑”容易,上手“可托付”难。

代码质量

评分 3/5。

正面信号:pyproject 的依赖、ruff/pyright/pytest 配置较完整;本地扫描发现 11 个 workflows、104 个 test-ish 文件、约 99k Python LOC;GraphQL 显示 merged PRs=1788、commits=9287,维护吞吐较强 [GH:local-scan][GH:pyproject][GH:graphql]。

但本轮未运行测试、未看覆盖率、未启动浏览器;browser automation 逻辑与云/本地双形态复杂度高,历史 advisory 也说明核心安全边界曾出错 [GH:advisory]。所以只能给“可读且有治理信号”的 3,而不是“结构良好且 CI/测试可用已验证”的 4。

可扩展性

评分 4/5。

Browser Use 的扩展性来自多个方向:自定义 Agent/Browser 配置、custom tools、不同 LLM provider、CLI/CDP/profile、cloud session API、MCP 依赖、Claude Code skill 表面以及 CONTRIBUTING 中面向集成示例的协作路径 [GH:readme][GH:pyproject][GH:cli][GH:cloud][GH:contributing]。

不给 5 的原因:一部分扩展性绑定 Browser Use Cloud/product;对于深度安全策略、企业级 policy enforcement、确定性 replay、细粒度 permission model,本轮没有看到足以支撑满分的稳定抽象。

文档质量

评分 4/5。

README、CLI README、CLOUD.md、官方 docs 的 introduction/production/browser-config/agent-config 能帮助读者快速理解 local library、CLI、cloud sandbox 与 product surface [GH:readme][GH:cli][GH:cloud][Docs:intro][Docs:production]。对开发者来说,初始路径清楚。

扣分点:官方 docs 抽取结果有部分页面内容很简略;Cloud docs 与 README/docs 中带有较强产品推荐口径,需要读者自己区分 OSS repo、hosted cloud、ChatBrowserUse 模型和商业服务 [GH:cloud][Docs:production]。

社区与成熟度

维度评分说明
社区活跃度4/596k+ stars、10k+ forks、contributors first page=100、discussions=278、merged PRs=1788,社区可见度和维护活动都强;但 community profile 缺 CODE_OF_CONDUCT/issue/PR template,故不满格 [GH:api][GH:graphql][GH:community]
成熟度2/5创建于 2024-10,latest 0.12.9,release 多且快;已形成生态影响力,但仍是 0.x browser-agent 基础设施,且历史 critical advisory 指向核心安全边界。对这种高权限 substrate,稳定 API 和生产可靠性证据不足时应按 2 计 [GH:api][GH:graphql][GH:advisory]

Stars 是 visibility,不是 production safety。Browser Use 的生态声量已经很大,但 browser-agent 工程成熟度不能只按 stars 定。

安全与风险

评分 2/5。

安全是采用 Browser Use 时的主要约束,不是因为项目“没有安全意识”,而是因为它所处问题域太危险。

正面信号:有 SECURITY.md 和 GitHub private advisory 报告路径;repository security policy enabled;历史 advisory 已标出 patched version [GH:security][GH:graphql][GH:advisory]。

核心风险:

  1. 登录态与 cookie 风险:Cloud docs 明确描述 profile upload/sync,可把本地已登录 cookies/profile 上传到云端用于任务 [GH:cloud]。
  2. SSRF / internal network 风险:历史 critical advisory 正是 allowed_domains allowlist bypass,影响 <=0.1.44、patched in 0.1.45;这类缺陷会让 browser agent 访问 localhost/internal services [GH:advisory]。
  3. 真实副作用风险:agent 可以 click/type/upload/download/cookies/eval;错误动作可能提交表单、删除数据、购买、发送消息或泄露文件 [GH:cli]。
  4. 云端日志与任务数据:Cloud task/session/file APIs 涉及 prompts、页面内容、live session、outputs、logs、uploaded files;需要单独审查数据保留和访问策略 [GH:cloud]。
  5. Prompt injection:网页内容可诱导 agent 访问、提交或泄密;本轮没有验证防注入机制。
  6. 本轮未做安全实测:未运行 dependency audit、gitleaks、container scan、profile-sync test、allowlist bypass regression 或 cloud data-retention check。

因此 security 给 2:不是“不可用”,而是默认必须按高危自动化工具隔离;生产账号/敏感网络禁用,除非已有独立 sandbox、allowlist、human confirmation、日志审计和最小权限 credential。

学习价值

Browser Use 的学习价值很高:它把 agent 从“文本生成器”推进到“浏览器操作者”。这能帮助我们理解几个关键问题:

  • 网页是状态空间,不是静态文档;
  • browser agent 的能力边界同时由 LLM、DOM、截图、CDP、profile、network 和目标站点决定;
  • cookie/profile 是便利性与风险的交点;
  • cloud browser 把运维问题外包,也把信任边界外移;
  • allowlist、sandbox、human-in-the-loop、credential scoping 是 browser agent 的基础安全原语,不是附加项。

对 Develata 而言,它是非常好的 wiki 样本:既能观察热门 agent infrastructure 的产品化路径,也能提醒自己不要被 demo 炫目所惑。能行于网者,亦能误入险地;器利者,戒心尤不可钝。