你想让 AI 帮你操作浏览器,自动填表、抓数据、跑流程。
打开 GitHub 一搜,两个名字反复出现:Skyvern 和 Stagehand。
一个靠视觉理解网页,一个给 Playwright 加了自然语言能力。听起来都很强,但它们解决的问题完全不一样。
先说结论,再拆细节。
先说结论
Skyvern 适合不写代码、跑陌生网站的场景。 政府门户、供应商系统、你没见过的后台——它用计算机视觉”看”页面,不依赖 CSS 选择器,天然抗布局变化。
Stagehand 适合已有 Playwright 基础、想局部引入 AI 的开发者。 你的自动化脚本大部分逻辑不变,只在选择器容易坏的地方换成自然语言调用,省 token 又稳定。
如果你两个都没用过,问自己一个问题:你愿意写代码吗?
愿意 → Stagehand。不愿意 → Skyvern。
架构差异:视觉 vs 混合
Skyvern 的核心是视觉推理。它给页面截图,用 LLM + 计算机视觉理解”这是个什么按钮””这个表单要填什么”。你用自然语言描述任务,它自己决定怎么点、怎么填。
好处很明显:不需要写选择器,不需要了解页面结构。 网站改版了?无所谓,它重新”看”一遍就行。
代价也明显:每一步都要调 LLM + 处理截图,token 消耗高,速度慢。
Stagehand 走的是另一条路。它本质上是 Playwright 的增强层,提供三个自然语言原语:
act("点击提交按钮")— 执行动作extract("拿到订单总价")— 提取数据observe("页面上有哪些按钮?")— 观察状态
大部分流程你还是用确定性代码写,只在 DOM 结构不稳定的地方用自然语言兜底。这意味着 90% 的步骤不需要调 LLM,成本低得多。
Stagehand v3(2026 年 2 月发布)还加了 action caching:成功执行过的动作会被缓存,下次跑同样的页面直接复用,不再调模型。这对重复性任务来说是实打实的省钱。
定价:按步计费 vs 按模型计费
Skyvern 的定价很直接:$0.05/步。一个 10 步的任务大概 $0.50。它有云端托管版,也支持自部署(开源,AGPL-3.0)。自部署的话你只付 LLM API 费用,但要自己搞基础设施。
云端套餐:
- Starter:$29/月,含 500 步
- Growth:$249/月,含 5000 步
- 超出部分按 $0.05/步计
Stagehand 的 SDK 完全免费(MIT 协议)。你付的是两块:LLM API 费用 + 浏览器基础设施(通常是 Browserbase)。
单次动作成本大概 $0.002-0.02,取决于模型和缓存命中率。一个 10 步任务可能只要 $0.02-0.20。
如果你跑大量重复任务,Stagehand 的成本优势非常明显。 但如果你的任务都是一次性的、面对陌生网站,Skyvern 的”开箱即用”省下的开发时间可能更值钱。
技术栈适配
Skyvern:Python 优先,REST API 驱动,支持任何语言调用。不需要你懂 Playwright。
Stagehand:TypeScript 优先,21,600+ GitHub stars。有 Python wrapper,但 TypeScript 是一等公民体验。如果你的团队是 TypeScript 栈,Stagehand 几乎是无缝接入。
处理认证和验证码
这是个实际问题。
Skyvern 内置 2FA/TOTP 和 CAPTCHA 处理。你不需要额外写逻辑,它自己搞定。
Stagehand 不处理这些。你需要自己实现,或者依赖 Browserbase 的基础设施层来解决。
如果你的自动化场景涉及大量登录、验证码,Skyvern 省心很多。
稳定性和维护成本
Stagehand 的自愈能力值得一提:当 DOM 变化导致选择器失效时,它会重新调 LLM 定位元素,而不是直接报错。这意味着你的脚本不会因为网站小改版就挂掉。
Skyvern 天然不依赖选择器,所以根本没有”选择器失效”这个问题。但它的每次执行都是”从头理解页面”,偶尔会出现理解偏差。
长期维护来看,两者都比传统 Playwright 脚本省心,但方式不同。
基准测试怎么说
公开数据有限,但可以参考:
- Browser Use(同类视觉方案)在 WebVoyager 上跑到 89.1%
- Stagehand v3 比 v2 速度提升 44%,token 效率显著改善
- Skyvern 在 WRITE 类任务(填表、登录、下载)上表现最强
没有一个工具在所有场景都赢。 读取类任务 Stagehand 更快更便宜,写入类任务 Skyvern 更可靠。
谁不该选这两个
如果你的自动化需求很简单——固定几个网站、结构稳定、不涉及 AI 判断——直接用 Playwright 或 Puppeteer 就够了。 引入 AI 层只会增加成本和不确定性。
如果你需要的是数据抓取而不是浏览器操作,Firecrawl、Apify 这类工具可能更合适。
最终判断
| 维度 | Skyvern | Stagehand |
|---|---|---|
| 上手门槛 | 低,自然语言描述任务 | 中,需要 Playwright 基础 |
| 单步成本 | ~$0.05 | ~$0.002-0.02 |
| 陌生网站 | 强,视觉理解 | 弱,需要适配 |
| 重复任务 | 贵 | 便宜(有缓存) |
| 认证/验证码 | 内置 | 需自行处理 |
| 开源协议 | AGPL-3.0 | MIT |
选 Skyvern: 你是运营/产品人,不想写代码,任务涉及大量陌生网站和表单。
选 Stagehand: 你是开发者,已有 Playwright 脚本,想用最低成本引入 AI 自愈能力。
两个都不选:你的场景不需要 AI,传统自动化工具就够了。
不要因为”AI 浏览器自动化”听起来酷就上。先想清楚你的任务到底需不需要 AI 来”看”页面。大多数时候,答案是不需要。



