AI Agent 的护城河,为什么会从模型转向 skill stack

AI Agent 的护城河,为什么会从模型转向 skill stack

为什么我越来越确定,AI Agent 的护城河不在模型,在 skill

这两年,AI 圈最热闹的剧情,几乎都围着模型转。

今天谁 benchmark 又刷高了,明天谁 context 更长了,后天谁价格又打下来了。表面看,这些当然都重要。模型决定了 agent 的智力底盘,底盘太差,很多事确实跑不起来。

但我这段时间越用越觉得,真正把 AI Agent 拉开差距的,往往已经不是模型本身,而是 skill。

更准确一点说,是那套把模型接进真实工作流的能力层:tool use、workflow、memory、verification loop、权限控制、错误恢复、长期上下文、可复用流程。模型像大脑,skill stack 更像手脚、神经系统和工作纪律。没有这层,再强的模型也很容易停在“会说”;有了这层,就算不是最顶的模型,也可能更像一个真的能交付结果的数字员工。

这不是在唱反调,说模型不重要。恰恰相反,正因为模型越来越强、越来越像基础设施,差距才会开始往别的地方转移。当回答能力慢慢趋同,真正稀缺的就会变成行动能力。

一、为什么只看模型,已经越来越不够了

先把话说清楚:模型当然重要。但如果还停留在“谁家模型最强、排行榜第几”这个视角,已经有点像当年只看 CPU 跑分了。跑分能说明一部分问题,但解释不了真实体验。

一个很明显的变化是,模型正在快速商品化。

今天的行业状态,已经不是一年多前那种“少数几家掌握绝对代差”的局面。OpenAI、Anthropic、Google、xAI、Meta,再加上一大批开源和蒸馏模型,把基础能力的差距越拉越小,价格却越打越低。Bessemer 在 2026 年那篇 AI pricing 文章里反复强调一件事:AI 的定价逻辑正在从“先占坑”转向“必须对应真实价值”。尤其是 2025 年那批试点项目走进 2026 年续费期之后,客户已经没那么愿意为“模型很先进”买单了,他们更关心的是:你到底替我做成了什么。

这句话翻译成人话就是:模型越来越像电力、云、数据库。离不开,但也很难单靠它形成长期优势。

更关键的是,benchmark 高分,不等于真实世界里完成任务的能力就强。

这个坑,真正拿 agent 干过活的人基本都踩过。一个模型在数学题、代码题、标准问答上表现亮眼,不代表它放进实际流程里就能把事做完。因为真实任务从来不是答一道题,而是一串动作:先理解目标,再拆任务,再选工具,再处理异常,再检查结果,必要时回滚,然后继续往下走。

Amazon 在 2026 年那篇 agent evaluation 文章里讲得很直白:单模型 benchmark 评估的是基础模型的一部分能力,但 agentic system 真正要看的,是完整系统的涌现行为,比如 tool selection、multi-step reasoning、memory retrieval、task completion success rate。说白了,光看模型分数,根本判断不了一个 agent 到底能不能上线。

这也是很多人第一次认真用 agent 时最真实的落差:聊天时像天才,交任务时像实习生。

你让它写一段分析,它头头是道;你让它“把文章发到 WordPress,顺手配图、加标签、检查链接、确认发布成功”,它可能第三步就开始装作做完。不是它故意偷懒,而是这个任务需要的,已经不是单轮回答能力,而是一整套行动系统。

所以,同一个模型,放到不同 agent 系统里,最后表现完全可能是两回事。

有的系统只给它一个聊天框,它最多做规划和文字输出;有的系统给它文件读写、终端执行、浏览器控制、文档系统、外部 API、长期记忆、结果校验,它的上限立刻就变了。tool access 不是锦上添花,它直接决定模型能不能把任务走完。

这件事其实一点都不玄。一个很聪明、但被绑在椅子上的人,和一个没那么聪明、但能起身、能查资料、能操作电脑、能复盘的人,谁更适合完成复杂工作?现实里答案并不总是前者。

二、什么是 skill,为什么它更接近真正的护城河

很多人一听到 skill,会下意识理解成“装几个插件”。这理解太浅了。

我更愿意把 skill 理解成:把模型能力稳定接到现实世界里的行动层。

它不是一个孤零零的插件,而是一套可复用、可验证、可迭代的能力封装。里面至少有几层东西:

  • Tool use:会不会调用文件、终端、浏览器、数据库、SaaS API
  • Workflow:任务是不是有明确步骤、条件分支、失败兜底
  • Memory:能不能记住用户偏好、项目上下文、上一步结果
  • Verification:做完会不会检查,不对会不会重试
  • Guardrails / Permissions:什么能做,什么不能做,边界清不清楚
  • Observability:出了错能不能知道错在哪,而不是一团黑盒

Anthropic 在《Building Effective Agents》里其实已经把底层逻辑说透了:最有效的 agent,往往不是靠最复杂的框架堆出来的,而是靠简单、可组合的模式搭起来的;真正的基础积木不是一个“神奇 agent”,而是 augmented LLM,也就是带 retrieval、tools、memory 的模型。它还特别提醒,很多任务先用 workflow 就够了,只有在需要更高灵活性的时候才上 agent。

这背后真正关键的一点是:能不能干活,不是看你模型多会答,而是看你有没有把行动结构接好。

所以,skill 不是“我可以帮 agent 调一个搜索 API”这么简单,而是“我能不能让它稳定完成一整类任务”。

比如“发一篇文章到 WordPress”,表面看只是一个发布动作,实际上背后是一整条 skill:

  1. 读取 Markdown
  2. 生成或检查标题、摘要、slug
  3. 处理封面图
  4. 转换成 HTML 或 Gutenberg block
  5. 选择分类和标签
  6. 调用发布接口
  7. 回读线上页面确认渲染正常
  8. 发现失败时重试,必要时回滚到 draft

这才叫 skill。不是会发请求,而是真的能把任务收尾。

再比如 memory,也不是“挂了个向量库”就算完了。真正有用的 memory,是能把一次性对话,变成持续工作的一部分。Windsurf 官方文档把 Memories 定义为会话间共享和持久化上下文的系统;OpenClaw 这类 agent 系统则更进一步,把长期记忆、daily log、项目决策、工具配置分层存放。这里最重要的从来不是“记住更多”,而是记住那些下次还能继续干活的信息。

verification 也一样。没有 verification,agent 的典型状态就是:说得很像,做得不实;看起来完成了,其实没交付。Amazon 的 agent evaluation 框架会把 tool selection accuracy、tool parameter accuracy、goal success、goal accuracy 单独拆出来,本质上就是在承认:agent 不是答题器,它是执行系统。执行系统最怕的,不是“答得不够漂亮”,而是“做错了还没人发现”。

三、真正把体验拉开的,往往是 skill,不是模型名

如果你最近同时用过 Claude Code、Cursor、Windsurf、Codex CLI,或者像 OpenClaw 这种更偏 agent orchestration 的系统,体感会特别明显:大家底层模型可能有重叠,但做事手感完全不是一回事。

Claude Code 的官方文档写得很直接:它能读整个 codebase、编辑文件、运行命令、管理项目,并且在终端、IDE、桌面端、Web 端之间协同。这里真正关键的,不是“它用的是 Claude”,而是它默认就把读文件、改文件、跑命令、验证结果这些动作接好了。

Cursor 的 Agent Mode 也是同一路数:自动探索代码库、读取文档、浏览网页、编辑文件、运行 terminal commands。它最近继续往前走,连 background agent 都做出来了。任务丢进去,后台跑,跑完再回来。这本质上不是模型升级,而是 workflow 升级。

Windsurf 的 Cascade 更典型。它把 memories、rules、tool calling、todo planning、checkpoint revert、MCP 扩展放在一个连续工作流里。你会发现它真正想卖的,不是“我家模型最强”,而是“我能把一段复杂 trajectory 管起来”。

OpenAI 的 Codex CLI 也是这个方向:支持在终端里发起 cloud task、选择环境、应用 diff、脚本化重复流程、通过 MCP 接第三方工具。翻译成人话就是:它不满足于陪你写代码,它想接管一段能执行的流程。

看出来没有?这些产品真正竞争的,已经不只是底层模型,而是:

  • 给模型接了什么工具
  • 如何组织行动路径
  • 如何保留上下文
  • 如何展示和审核 diff
  • 如何处理失败和回退
  • 如何把一次对话变成持续协作

这就是 skill stack。

没有 skill 的 agent,最常见的三个问题特别真实。

1)会说不会做

方案讲得很好,一落到动作层就断。你让它“帮我调研 10 篇资料并整理成表格”,它最后给你一堆摘要,但不会真的抓网页、抽字段、落表。

2)答应了,但没交付

它说“已经帮你处理好了”,结果文件没改、页面没发、数据库没写。这不是小 bug,这是最伤信任的一种失败。因为用户要的是结果,不是一个像结果的回复。

3)做了,但不回头检查

哪怕它真的执行了动作,也常常不会确认。比如发布文章后不检查链接是不是 404,写完代码后不跑测试,创建日历事件后不确认时区和时间。最后用户还得自己收尾。

反过来,一个 skill stack 比较扎实的 agent,哪怕没那么“聪明”,也会更像靠谱同事。

它会先读上下文再改文件;会真的打开浏览器去点按钮;会写完代码后跑测试;会把研究任务拆成搜索、提炼、交叉验证、成文几个阶段;会记住你的偏好,下次不从零开始。你会明显感觉到,它不是在“模拟工作”,而是在“推进工作”。

我现在也越来越不相信“prompt engineering 才是核心门槛”这件事。

prompt 当然重要,但它更像沟通技巧,不像组织能力。一个好 prompt,也许能让模型这一次答得更像样;但真正可复用的竞争力,来自你有没有把这类任务固化成 skill,让 agent 下次、下下次、换个人来用时都还能跑通。真正难复制的,不是 prompt,而是可复用的 skill stack。

这里可以举两个很现实的工作流例子。

第一个是内容发布。很多人以为“AI 写完文章”这一步已经很厉害了,但真正卡人的从来是后半段:改标题、补摘要、查重封面、上传后台、设分类、配 SEO、回读网页、确认首页有没有挂上。能把这整套动作跑顺的 agent,和只会吐一篇稿子的 agent,根本不是一个物种。要是你想看这件事放到内容生产里到底怎么拆,前面那篇《为什么很多人用了 AI 还是写不出持续内容?》其实就是把 acquisition、judgment、framing、publishing 这条链一层层掰开来看。

第二个是研发协作。一个只会生成代码片段的模型,顶多算高级 autocomplete;但如果它能读仓库、理解 issue、改文件、跑测试、生成 diff、解释改动、根据 review comment 二次修正,这时候它开始像一个能接活的 junior engineer,哪怕模型本身未必是最贵那档。

四、为什么下一阶段真正的竞争,会是 skill stack

如果把未来的模型看成“电力”,很多问题一下就顺了。

电力当然重要,没有电一切都停。但真正决定一家工厂产能和利润的,通常不是“你家用的是不是全球最贵的电”,而是生产线怎么设计、工序怎么衔接、质检怎么做、经验怎么沉淀、异常怎么处理。

AI Agent 也是一样。

未来真正值钱的,不只是“接入了哪个顶级模型”,而是一个团队、一个公司,甚至一个人,围绕模型搭出了什么样的 skill stack:

  • 哪些任务已经被拆成可重复流程
  • 哪些内部知识被沉淀成可调用记忆
  • 哪些外部系统已经打通成工具
  • 哪些高风险动作前有验证和审批
  • 哪些经验已经从“人会做”变成“agent 也会做”

从企业角度看,这其实就是新的系统集成能力。CIO 那篇文章里有句话我很认同:the foundation matters more than the model。到了 agent 时代,真正要改造的不是一个聊天入口,而是企业的数据流、事件流、权限系统、验证体系、人才分工。竞争点会越来越从“接没接上大模型”,转向“有没有给 agent 准备一整套能运转的组织接口”。

从个人和小团队角度看,这件事反而更刺激。

过去,很多组织能力只有大公司才有:流程、知识库、SOP、质检、协作、分工。现在,一个人第一次有机会用 skill stack,把自己放大成“一个人 + 一支数字团队”。

写作者可以把选题、检索、事实核查、初稿、改写、排版、发布串成一条链;开发者可以把需求拆解、改代码、跑测试、提 PR、看 review comments 交给不同 agent 协同;运营可以把搜集案例、生成图文、分发多平台、监控反馈、复盘沉淀成重复系统。

这才是 agent 真正让人兴奋的地方。不是它会聊天,而是它开始有一点“组织工作”的样子了。

五、隐忧也很明显:skill 多,不代表 agent 就强

话说回来,这件事也不能太乐观。

第一,skill 多,不等于强。

很多系统的问题不是能力不够,而是堆得太乱。插件一堆、MCP 一堆、工作流一堆,最后谁也说不清什么时候该调哪个,错误链条还越拉越长。一个 skill stack 如果不可观察、不可调试、不可复用,那它不是护城河,更像沼泽。

第二,黑盒自动化会放大失控风险。

agent 一旦从“给建议”跨进“代执行”,问题就不再只是内容质量,而是权限和责任。它会不会误删文件、误发消息、误下单、误改线上配置?当然会。所以 guardrails、approval、sandbox、回滚点、审计日志这些东西,不是什么大公司保守病,而是 agent 真走进生产环境之前必须补齐的地基。

第三,memory 也不是越多越好。

记忆系统如果没有筛选和更新,最后只会把噪音当经验,把过期信息当事实。真正有价值的 memory,应该服务下一次决策和执行,而不是单纯越攒越厚。

所以我现在判断一个 skill 好不好,越来越看三个标准:

  • 可验证:做完能检查,错了能发现
  • 可复用:不是一次性 prompt,下次还能跑
  • 可迭代:踩坑之后能修正,不永远停在 demo 状态

说到底,skill 的成熟度,比 skill 的数量重要得多。

结尾:未来真正稀缺的,是把模型变成行动的人

如果今天还在反复争“哪个模型最强”,我觉得这个问题本身已经有点旧了。

更值得追问的是:

  • 这个 agent 有没有工具可用?
  • 有没有稳定 workflow?
  • 有没有 memory 能延续上下文?
  • 有没有 verification,确保它不是在装作完成?
  • 有没有把经验沉淀成可复用的 skill stack?

模型当然还会继续进步,差距也不会彻底消失。更强的模型依然会抬高上限,这点没必要假装看不见。

但真正决定 AI Agent 能不能从“会聊天”跨到“能干活”的,已经不只是换一个更贵、更大的模型,而是你有没有把它接上真实世界的行动层。

所以我现在的判断很明确:未来 AI Agent 的护城河,不是“最强模型”,而是“最会把模型变成行动的人”。

谁能把模型能力封装成可复用的 skill,把一次性回答变成持续工作流,把“看起来很聪明”变成“真的能交付”,谁就更有下一阶段的优势。

模型会越来越像商品。

而 skill stack,会越来越像组织能力。

滚动至顶部