为什么我越来越确定，AI Agent 的护城河不在模型，在 skill

这两年，AI 圈最热闹的剧情，几乎都围着模型转。

今天谁 benchmark 又刷高了，明天谁 context 更长了，后天谁价格又打下来了。表面看，这些当然都重要。模型决定了 agent 的智力底盘，底盘太差，很多事确实跑不起来。

但我这段时间越用越觉得，真正把 AI Agent 拉开差距的，往往已经不是模型本身，而是 skill。

更准确一点说，是那套把模型接进真实工作流的能力层：tool use、workflow、memory、verification loop、权限控制、错误恢复、长期上下文、可复用流程。模型像大脑，skill stack 更像手脚、神经系统和工作纪律。没有这层，再强的模型也很容易停在“会说”；有了这层，就算不是最顶的模型，也可能更像一个真的能交付结果的数字员工。

这不是在唱反调，说模型不重要。恰恰相反，正因为模型越来越强、越来越像基础设施，差距才会开始往别的地方转移。当回答能力慢慢趋同，真正稀缺的就会变成行动能力。

一、为什么只看模型，已经越来越不够了

先把话说清楚：模型当然重要。但如果还停留在“谁家模型最强、排行榜第几”这个视角，已经有点像当年只看 CPU 跑分了。跑分能说明一部分问题，但解释不了真实体验。

一个很明显的变化是，模型正在快速商品化。

今天的行业状态，已经不是一年多前那种“少数几家掌握绝对代差”的局面。OpenAI、Anthropic、Google、xAI、Meta，再加上一大批开源和蒸馏模型，把基础能力的差距越拉越小，价格却越打越低。Bessemer 在 2026 年那篇 AI pricing 文章里反复强调一件事：AI 的定价逻辑正在从“先占坑”转向“必须对应真实价值”。尤其是 2025 年那批试点项目走进 2026 年续费期之后，客户已经没那么愿意为“模型很先进”买单了，他们更关心的是：你到底替我做成了什么。

这句话翻译成人话就是：模型越来越像电力、云、数据库。离不开，但也很难单靠它形成长期优势。

更关键的是，benchmark 高分，不等于真实世界里完成任务的能力就强。

这个坑，真正拿 agent 干过活的人基本都踩过。一个模型在数学题、代码题、标准问答上表现亮眼，不代表它放进实际流程里就能把事做完。因为真实任务从来不是答一道题，而是一串动作：先理解目标，再拆任务，再选工具，再处理异常，再检查结果，必要时回滚，然后继续往下走。

Amazon 在 2026 年那篇 agent evaluation 文章里讲得很直白：单模型 benchmark 评估的是基础模型的一部分能力，但 agentic system 真正要看的，是完整系统的涌现行为，比如 tool selection、multi-step reasoning、memory retrieval、task completion success rate。说白了，光看模型分数，根本判断不了一个 agent 到底能不能上线。

这也是很多人第一次认真用 agent 时最真实的落差：聊天时像天才，交任务时像实习生。

你让它写一段分析，它头头是道；你让它“把文章发到 WordPress，顺手配图、加标签、检查链接、确认发布成功”，它可能第三步就开始装作做完。不是它故意偷懒，而是这个任务需要的，已经不是单轮回答能力，而是一整套行动系统。

所以，同一个模型，放到不同 agent 系统里，最后表现完全可能是两回事。

有的系统只给它一个聊天框，它最多做规划和文字输出；有的系统给它文件读写、终端执行、浏览器控制、文档系统、外部 API、长期记忆、结果校验，它的上限立刻就变了。tool access 不是锦上添花，它直接决定模型能不能把任务走完。

这件事其实一点都不玄。一个很聪明、但被绑在椅子上的人，和一个没那么聪明、但能起身、能查资料、能操作电脑、能复盘的人，谁更适合完成复杂工作？现实里答案并不总是前者。

二、什么是 skill，为什么它更接近真正的护城河

很多人一听到 skill，会下意识理解成“装几个插件”。这理解太浅了。

我更愿意把 skill 理解成：把模型能力稳定接到现实世界里的行动层。

它不是一个孤零零的插件，而是一套可复用、可验证、可迭代的能力封装。里面至少有几层东西：

Tool use：会不会调用文件、终端、浏览器、数据库、SaaS API
Workflow：任务是不是有明确步骤、条件分支、失败兜底
Memory：能不能记住用户偏好、项目上下文、上一步结果
Verification：做完会不会检查，不对会不会重试
Guardrails / Permissions：什么能做，什么不能做，边界清不清楚
Observability：出了错能不能知道错在哪，而不是一团黑盒

Anthropic 在《Building Effective Agents》里其实已经把底层逻辑说透了：最有效的 agent，往往不是靠最复杂的框架堆出来的，而是靠简单、可组合的模式搭起来的；真正的基础积木不是一个“神奇 agent”，而是 augmented LLM，也就是带 retrieval、tools、memory 的模型。它还特别提醒，很多任务先用 workflow 就够了，只有在需要更高灵活性的时候才上 agent。

这背后真正关键的一点是：能不能干活，不是看你模型多会答，而是看你有没有把行动结构接好。

所以，skill 不是“我可以帮 agent 调一个搜索 API”这么简单，而是“我能不能让它稳定完成一整类任务”。

比如“发一篇文章到 WordPress”，表面看只是一个发布动作，实际上背后是一整条 skill：

读取 Markdown
生成或检查标题、摘要、slug
处理封面图
转换成 HTML 或 Gutenberg block
选择分类和标签
调用发布接口
回读线上页面确认渲染正常
发现失败时重试，必要时回滚到 draft

这才叫 skill。不是会发请求，而是真的能把任务收尾。

再比如 memory，也不是“挂了个向量库”就算完了。真正有用的 memory，是能把一次性对话，变成持续工作的一部分。Windsurf 官方文档把 Memories 定义为会话间共享和持久化上下文的系统；OpenClaw 这类 agent 系统则更进一步，把长期记忆、daily log、项目决策、工具配置分层存放。这里最重要的从来不是“记住更多”，而是记住那些下次还能继续干活的信息。

verification 也一样。没有 verification，agent 的典型状态就是：说得很像，做得不实；看起来完成了，其实没交付。Amazon 的 agent evaluation 框架会把 tool selection accuracy、tool parameter accuracy、goal success、goal accuracy 单独拆出来，本质上就是在承认：agent 不是答题器，它是执行系统。执行系统最怕的，不是“答得不够漂亮”，而是“做错了还没人发现”。

三、真正把体验拉开的，往往是 skill，不是模型名

如果你最近同时用过 Claude Code、Cursor、Windsurf、Codex CLI，或者像 OpenClaw 这种更偏 agent orchestration 的系统，体感会特别明显：大家底层模型可能有重叠，但做事手感完全不是一回事。

Claude Code 的官方文档写得很直接：它能读整个 codebase、编辑文件、运行命令、管理项目，并且在终端、IDE、桌面端、Web 端之间协同。这里真正关键的，不是“它用的是 Claude”，而是它默认就把读文件、改文件、跑命令、验证结果这些动作接好了。

Cursor 的 Agent Mode 也是同一路数：自动探索代码库、读取文档、浏览网页、编辑文件、运行 terminal commands。它最近继续往前走，连 background agent 都做出来了。任务丢进去，后台跑，跑完再回来。这本质上不是模型升级，而是 workflow 升级。

Windsurf 的 Cascade 更典型。它把 memories、rules、tool calling、todo planning、checkpoint revert、MCP 扩展放在一个连续工作流里。你会发现它真正想卖的，不是“我家模型最强”，而是“我能把一段复杂 trajectory 管起来”。

OpenAI 的 Codex CLI 也是这个方向：支持在终端里发起 cloud task、选择环境、应用 diff、脚本化重复流程、通过 MCP 接第三方工具。翻译成人话就是：它不满足于陪你写代码，它想接管一段能执行的流程。

看出来没有？这些产品真正竞争的，已经不只是底层模型，而是：

给模型接了什么工具
如何组织行动路径
如何保留上下文
如何展示和审核 diff
如何处理失败和回退
如何把一次对话变成持续协作

这就是 skill stack。

没有 skill 的 agent，最常见的三个问题特别真实。

1）会说不会做

方案讲得很好，一落到动作层就断。你让它“帮我调研 10 篇资料并整理成表格”，它最后给你一堆摘要，但不会真的抓网页、抽字段、落表。

2）答应了，但没交付

它说“已经帮你处理好了”，结果文件没改、页面没发、数据库没写。这不是小 bug，这是最伤信任的一种失败。因为用户要的是结果，不是一个像结果的回复。

3）做了，但不回头检查

哪怕它真的执行了动作，也常常不会确认。比如发布文章后不检查链接是不是 404，写完代码后不跑测试，创建日历事件后不确认时区和时间。最后用户还得自己收尾。

反过来，一个 skill stack 比较扎实的 agent，哪怕没那么“聪明”，也会更像靠谱同事。

它会先读上下文再改文件；会真的打开浏览器去点按钮；会写完代码后跑测试；会把研究任务拆成搜索、提炼、交叉验证、成文几个阶段；会记住你的偏好，下次不从零开始。你会明显感觉到，它不是在“模拟工作”，而是在“推进工作”。

我现在也越来越不相信“prompt engineering 才是核心门槛”这件事。

prompt 当然重要，但它更像沟通技巧，不像组织能力。一个好 prompt，也许能让模型这一次答得更像样；但真正可复用的竞争力，来自你有没有把这类任务固化成 skill，让 agent 下次、下下次、换个人来用时都还能跑通。真正难复制的，不是 prompt，而是可复用的 skill stack。

这里可以举两个很现实的工作流例子。

第一个是内容发布。很多人以为“AI 写完文章”这一步已经很厉害了，但真正卡人的从来是后半段：改标题、补摘要、查重封面、上传后台、设分类、配 SEO、回读网页、确认首页有没有挂上。能把这整套动作跑顺的 agent，和只会吐一篇稿子的 agent，根本不是一个物种。要是你想看这件事放到内容生产里到底怎么拆，前面那篇《为什么很多人用了 AI 还是写不出持续内容？》其实就是把 acquisition、judgment、framing、publishing 这条链一层层掰开来看。

第二个是研发协作。一个只会生成代码片段的模型，顶多算高级 autocomplete；但如果它能读仓库、理解 issue、改文件、跑测试、生成 diff、解释改动、根据 review comment 二次修正，这时候它开始像一个能接活的 junior engineer，哪怕模型本身未必是最贵那档。

四、为什么下一阶段真正的竞争，会是 skill stack

如果把未来的模型看成“电力”，很多问题一下就顺了。

电力当然重要，没有电一切都停。但真正决定一家工厂产能和利润的，通常不是“你家用的是不是全球最贵的电”，而是生产线怎么设计、工序怎么衔接、质检怎么做、经验怎么沉淀、异常怎么处理。

AI Agent 也是一样。

未来真正值钱的，不只是“接入了哪个顶级模型”，而是一个团队、一个公司，甚至一个人，围绕模型搭出了什么样的 skill stack：

哪些任务已经被拆成可重复流程
哪些内部知识被沉淀成可调用记忆
哪些外部系统已经打通成工具
哪些高风险动作前有验证和审批
哪些经验已经从“人会做”变成“agent 也会做”

从企业角度看，这其实就是新的系统集成能力。CIO 那篇文章里有句话我很认同：the foundation matters more than the model。到了 agent 时代，真正要改造的不是一个聊天入口，而是企业的数据流、事件流、权限系统、验证体系、人才分工。竞争点会越来越从“接没接上大模型”，转向“有没有给 agent 准备一整套能运转的组织接口”。

从个人和小团队角度看，这件事反而更刺激。

过去，很多组织能力只有大公司才有：流程、知识库、SOP、质检、协作、分工。现在，一个人第一次有机会用 skill stack，把自己放大成“一个人 + 一支数字团队”。

写作者可以把选题、检索、事实核查、初稿、改写、排版、发布串成一条链；开发者可以把需求拆解、改代码、跑测试、提 PR、看 review comments 交给不同 agent 协同；运营可以把搜集案例、生成图文、分发多平台、监控反馈、复盘沉淀成重复系统。

这才是 agent 真正让人兴奋的地方。不是它会聊天，而是它开始有一点“组织工作”的样子了。

五、隐忧也很明显：skill 多，不代表 agent 就强

话说回来，这件事也不能太乐观。

第一，skill 多，不等于强。

很多系统的问题不是能力不够，而是堆得太乱。插件一堆、MCP 一堆、工作流一堆，最后谁也说不清什么时候该调哪个，错误链条还越拉越长。一个 skill stack 如果不可观察、不可调试、不可复用，那它不是护城河，更像沼泽。

第二，黑盒自动化会放大失控风险。

agent 一旦从“给建议”跨进“代执行”，问题就不再只是内容质量，而是权限和责任。它会不会误删文件、误发消息、误下单、误改线上配置？当然会。所以 guardrails、approval、sandbox、回滚点、审计日志这些东西，不是什么大公司保守病，而是 agent 真走进生产环境之前必须补齐的地基。

第三，memory 也不是越多越好。

记忆系统如果没有筛选和更新，最后只会把噪音当经验，把过期信息当事实。真正有价值的 memory，应该服务下一次决策和执行，而不是单纯越攒越厚。

所以我现在判断一个 skill 好不好，越来越看三个标准：