为什么 2026 年记忆层突然变成兵家必争之地
一个事实:2024 年初,”AI agent memory”在 GitHub 上还是一堆散落的实验性 repo。到 2026 年 5 月,Mem0 拿下 55k+ stars 和 $24M 融资,Letta(前 MemGPT)拿到 $10M 种子轮并积累 22k+ stars,Zep 的开源知识图谱引擎 Graphiti 突破 20k stars。三家加起来,不到两年吸了近 100k GitHub stars 和超过 $35M 的风险资本。
这不是巧合。背后的推力很简单——context window 的增长速度,追不上 agent 对持久状态的需求。
GPT-5.5 的上下文窗口已经到了百万 token 级别,但你把一个客服 agent 跑三个月的对话历史全塞进去,成本和延迟都不可接受。更关键的是,”塞进去”不等于”记住了”。Mem0 在 ECAI 2025 发表的论文(arXiv:2504.19413)做了一个直接对比:把全部对话历史塞进上下文(full-context)在 LoCoMo benchmark 上的表现,远不如经过结构化提取和选择性检索的记忆系统。后者用不到 7000 token 就能达到 91.6 的准确率,而 full-context 方案需要 26000+ token 且分数更低。
所以问题不是”模型能不能记住”,而是”怎么高效地记住正确的东西”。这就是记忆层存在的工程理由。
AI agent 长期记忆(Long-term Memory for AI Agents):指独立于模型上下文窗口的持久化记忆基础设施,负责跨会话地提取、存储、检索和更新 agent 与用户交互中产生的事实、偏好和行为模式。它是 agent 从”无状态工具”进化为”有状态服务”的关键架构层。
从短期上下文到长期记忆:分层正在固化
2026 年的 agent memory 架构已经不是一个模糊概念,而是一套正在固化的分层模型。类比人类认知科学(Endel Tulving 1972 年的记忆分类),当前主流框架普遍采用三到四层结构:
| 层级 | 类比 | 典型实现 | 生命周期 |
|---|---|---|---|
| Working Memory | 工作记忆 | 模型上下文窗口 | 单次请求 |
| Short-term / Session Memory | 短期记忆 | LangGraph checkpointer、对话缓存 | 单次会话 |
| Long-term Semantic Memory | 语义记忆 | Mem0 fact store、Zep knowledge graph | 跨会话持久 |
| Episodic / Procedural Memory | 情景/程序记忆 | Letta memory blocks、Zep temporal edges | 跨会话持久 |
关键变化在于:长期记忆不再是”可选插件”,而是被当作独立的基础设施层来设计。AWS 在 2025-2026 年间连续发布了多篇官方博客,展示 Mem0 与 Amazon Bedrock、Neptune、ElastiCache 的集成方案。LangChain 在 2025 年 2 月发布了 LangMem SDK,专门为 LangGraph agent 提供跨会话记忆能力。这些都说明:记忆层正在从”应用层 hack”下沉为”平台层标配”。
Letta、Mem0、Zep:三条路线,三种赌注
这三家不是在做同一件事。它们的技术哲学和商业押注完全不同。
Letta:操作系统派
核心理念:把 LLM 当操作系统内核,记忆管理是 OS 的一部分。
Letta 脱胎于 UC Berkeley 的 MemGPT 论文(2023),核心创新是把操作系统的虚拟内存概念搬到 LLM 上——agent 有一个有限的”主内存”(上下文窗口),系统自动在主内存和”外存”之间做 paging。agent 自己决定什么时候把信息写入长期存储、什么时候调回来。
- 融资:$10M 种子轮(2024 年 9 月,Felicis 领投)
- GitHub stars:22.4k(letta-ai/letta)
- 技术栈:完整的 agent runtime + 内存管理 + 工具执行,Python/TypeScript SDK
- 商业押注:做 stateful agent 的完整平台,不只是记忆层。2026 年推出 Letta Code(memory-first coding agent),试图证明”有记忆的 agent”在编程场景的优势
Letta 的野心最大,但风险也最大。它不是卖记忆组件,而是要你把整个 agent 跑在它的 runtime 上。这意味着跟 LangGraph、CrewAI 这些框架是竞争关系,不是互补关系。
Mem0:记忆中间件派
核心理念:做 agent 生态的”记忆层 API”,跟谁都能集成。
Mem0 的策略很清晰——不碰 agent runtime,只做记忆这一件事,但做到极致。它的定位是”universal memory layer”,通过 API 和 SDK 嵌入任何框架。
- 融资:$24M(Seed + Series A,2025 年 10 月,Basis Set Ventures 领投 A 轮,Peak XV、GitHub Fund、YC 参投)
- GitHub stars:55.7k+(mem0ai/mem0)
- 技术栈:单 pass 分层提取 + 多信号检索(语义/关键词/实体三路并行),支持 20+ 向量数据库
- Benchmark:LoCoMo 91.6、LongMemEval 93.4,平均每次检索仅 ~6900 token
- 商业押注:做记忆领域的 Stripe——标准化 API,按调用量收费。已成为 AWS Agent SDK 的独家记忆供应商
Mem0 的 14M+ 下载量和 AWS 官方集成说明它在”被选择”这件事上跑得最快。但它的风险在于:如果记忆层被基础模型厂商内化,中间件的价值就会被压缩。
Zep:知识图谱派
核心理念:记忆不是 key-value 存储,而是时序知识图谱。
Zep 走了一条跟 Mem0 完全不同的技术路线。它的核心引擎 Graphiti 是一个 temporal knowledge graph——不只存事实,还存事实之间的关系和时间维度。当用户说”我换工作了”,Zep 不是简单覆盖旧记录,而是在图谱上创建一条带时间戳的新边,保留历史演变。
- 融资:$500K Pre-Seed(2024 年 3 月,YC W24)——融资额远小于另外两家
- GitHub stars:Graphiti 20k+,zep repo 4.5k+
- 技术栈:Neo4j-backed temporal knowledge graph + context assembly pipeline
- 论文:arXiv:2501.13956,在 DMR benchmark 上达到 94.8%,LongMemEval 上比 baseline 提升 18.5%,延迟降低 90%
- 商业押注:做”context engineering platform”,面向企业级合规场景(审计追踪、时序推理)
Zep 的技术路线最”重”,但在需要时序推理和合规审计的企业场景里,图谱方案有结构性优势。它的挑战是:知识图谱的构建成本高,冷启动慢,对中小开发者不够友好。
三家对比速览
| 维度 | Letta | Mem0 | Zep |
|---|---|---|---|
| 核心抽象 | Agent OS(内存分页) | Memory API(提取+检索) | Temporal KG(知识图谱) |
| 集成方式 | 替换你的 agent runtime | 嵌入任何框架 | 嵌入或独立部署 |
| 融资规模 | $10M | $24M | $500K |
| 开源热度 | 22k stars | 55k+ stars | 20k+ stars(Graphiti) |
| 最强场景 | 需要 agent 自主管理记忆 | 快速集成、大规模部署 | 时序推理、企业合规 |
| 最大风险 | 框架锁定,生态竞争 | 被模型厂商内化 | 冷启动成本高 |
记忆层会被基础模型吞掉吗?
这是最常见的反对意见:“等 GPT-6 上下文窗口到 10M token,谁还需要外部记忆层?”
说实话,这个质疑不是没道理。OpenAI 在 2025 年 4 月就给 ChatGPT 加了跨会话记忆功能,GPT-5.5 Instant 进一步强化了内置记忆。Google Gemini 的百万 token 窗口也在暗示”把所有东西塞进去”的路线。
但我认为这个论点有三个致命盲点:
第一,成本和延迟是硬约束。 即使窗口能装下 10M token,每次推理都处理 10M token 的计算成本是灾难性的。Mem0 的数据很说明问题:选择性检索用 ~7000 token 就能达到比 full-context 更高的准确率。在生产环境里,”能做到”和”做得起”是两回事。
第二,模型内置记忆是黑箱。 ChatGPT 的记忆功能你没法审计、没法导出、没法跨模型迁移。对企业来说,这不可接受。你的用户画像锁死在一个供应商的黑箱里,这不是技术问题,是商业风险。Mem0 创始人 Deshraj Yadav 把这叫”memory passport”——你的 AI 记忆应该像邮箱一样可以跨应用携带。
第三,记忆不只是”记住”,还有”遗忘”和”演变”。 用户三个月前说喜欢 Python,上周说在学 Rust——系统需要理解这是偏好演变,不是矛盾。Zep 的时序图谱和 Mem0 的 temporal reasoning(+29.6 分提升)都在解决这个问题。把所有历史塞进窗口不会自动解决语义层面的”什么该记、什么该忘”。
所以我的判断是:基础模型会吞掉”简单记忆”(比如 ChatGPT 记住你的名字),但不会吞掉”工程化记忆”(跨应用、可审计、可迁移、有时序推理的记忆基础设施)。 就像数据库没有被操作系统吞掉一样——它们是不同层次的抽象。
开发者怎么选?按场景给建议
别被 star 数迷惑。选记忆方案的核心问题是:你的 agent 需要记住什么、记多久、给谁用?
场景一:快速原型 / 个人项目
推荐:Mem0 开源版 或 LangMem
理由:Mem0 的 Python SDK 三行代码就能跑起来,LangMem 跟 LangGraph 无缝集成。不需要额外基础设施,InMemoryStore 就够用。
from mem0 import MemoryClient
client = MemoryClient(api_key="your-key")
client.add("用户偏好 dark mode", user_id="test")
场景二:生产级 SaaS,需要跨会话个性化
推荐:Mem0 Cloud
理由:已经是 AWS Agent SDK 的官方记忆供应商,集成文档最全(21 个框架集成),benchmark 数据最透明。按 API 调用计费,不需要自己运维向量数据库。
场景三:企业内部 agent,有合规和审计要求
推荐:Zep(自托管)
理由:temporal knowledge graph 天然支持审计追踪——每条记忆都有时间戳和来源。自托管意味着数据不出内网。图谱结构让”为什么 agent 这样回答”变得可解释。
场景四:需要 agent 自主学习和自我改进
推荐:Letta
理由:Letta 的 agent 能自己决定写入和读取记忆,不需要外部编排。如果你的场景是长期运行的 agent(比如个人助手、coding agent),需要 agent 自己积累经验并改进行为,Letta 的 OS 式架构最合适。
场景五:已经深度使用 LangGraph
推荐:LangMem SDK + Zep Cloud
理由:LangMem 是 LangChain 官方出品,跟 LangGraph 的 BaseStore 原生集成。如果需要更强的时序推理,加上 ZepCloudMemory 作为后端。
FAQ
Q1:AI agent 长期记忆和 RAG 有什么区别?
RAG(检索增强生成)从静态文档库中检索信息,适合知识问答。Agent 长期记忆则是从动态交互历史中提取、更新和检索个性化信息。核心区别在于:RAG 的数据源是预先准备的文档,记忆层的数据源是 agent 运行时产生的交互。两者可以共存——RAG 提供领域知识,记忆层提供用户上下文。
Q2:Mem0、Letta、Zep 三家会不会最终合并成一个标准?
短期内不会。三家的技术路线差异太大:Mem0 是 API-first 的中间件、Letta 是完整 runtime、Zep 是图谱引擎。更可能的演变是:出现一个类似 OpenTelemetry 的接口标准,让不同实现可以互换,但底层引擎保持多样性。
Q3:context window 越来越大,还需要外部记忆层吗?
需要。窗口大小解决的是”能不能装下”,记忆层解决的是”该不该装进去”以及”怎么高效地找到需要的部分”。Mem0 的 benchmark 数据显示,选择性检索(~7000 token)比 full-context(26000+ token)在准确率和成本上都更优。生产环境中,成本和延迟是硬约束。
Q4:如何评估一个 agent memory 方案的质量?
看三个维度:(1)准确率——推荐用 LoCoMo、LongMemEval、BEAM 这三个公开 benchmark 测试;(2)token 效率——每次检索消耗多少 token;(3)时序能力——能否正确处理信息的更新和演变。不要只看 demo 效果,要跑标准化测试。
Q5:自建 agent memory 还是用第三方服务?
如果你的团队有能力维护向量数据库和检索管线,且有数据合规要求,自建(基于 Mem0 开源版或 Graphiti)是合理选择。如果你想快速上线且规模可控,Mem0 Cloud 或 Zep Cloud 的托管服务能省大量运维成本。关键判断标准:你的记忆数据是否属于核心资产——如果是,自建;如果不是,托管。



