AI 长期记忆层正在被工程化：从 Letta、Mem0 到 Zep，agent memory stack 的标准正在浮现

🇺🇸
Read in English: AI Agent Memory Systems Compared: Letta vs Mem0 vs Zep – Best Choice for Your Agent Stack in 2026

为什么 2026 年记忆层突然变成兵家必争之地

一个事实：2024 年初，”AI agent memory”在 GitHub 上还是一堆散落的实验性 repo。到 2026 年 5 月，Mem0 拿下 55k+ stars 和 $24M 融资，Letta（前 MemGPT）拿到 $10M 种子轮并积累 22k+ stars，Zep 的开源知识图谱引擎 Graphiti 突破 20k stars。三家加起来，不到两年吸了近 100k GitHub stars 和超过 $35M 的风险资本。

这不是巧合。背后的推力很简单——context window 的增长速度，追不上 agent 对持久状态的需求。

GPT-5.5 的上下文窗口已经到了百万 token 级别，但你把一个客服 agent 跑三个月的对话历史全塞进去，成本和延迟都不可接受。更关键的是，”塞进去”不等于”记住了”。Mem0 在 ECAI 2025 发表的论文（arXiv:2504.19413）做了一个直接对比：把全部对话历史塞进上下文（full-context）在 LoCoMo benchmark 上的表现，远不如经过结构化提取和选择性检索的记忆系统。后者用不到 7000 token 就能达到 91.6 的准确率，而 full-context 方案需要 26000+ token 且分数更低。

所以问题不是”模型能不能记住”，而是”怎么高效地记住正确的东西”。这就是记忆层存在的工程理由。

AI agent 长期记忆（Long-term Memory for AI Agents）：指独立于模型上下文窗口的持久化记忆基础设施，负责跨会话地提取、存储、检索和更新 agent 与用户交互中产生的事实、偏好和行为模式。它是 agent 从”无状态工具”进化为”有状态服务”的关键架构层。

从短期上下文到长期记忆：分层正在固化

2026 年的 agent memory 架构已经不是一个模糊概念，而是一套正在固化的分层模型。类比人类认知科学（Endel Tulving 1972 年的记忆分类），当前主流框架普遍采用三到四层结构：

层级	类比	典型实现	生命周期
Working Memory	工作记忆	模型上下文窗口	单次请求
Short-term / Session Memory	短期记忆	LangGraph checkpointer、对话缓存	单次会话
Long-term Semantic Memory	语义记忆	Mem0 fact store、Zep knowledge graph	跨会话持久
Episodic / Procedural Memory	情景/程序记忆	Letta memory blocks、Zep temporal edges	跨会话持久

关键变化在于：长期记忆不再是”可选插件”，而是被当作独立的基础设施层来设计。AWS 在 2025-2026 年间连续发布了多篇官方博客，展示 Mem0 与 Amazon Bedrock、Neptune、ElastiCache 的集成方案。LangChain 在 2025 年 2 月发布了 LangMem SDK，专门为 LangGraph agent 提供跨会话记忆能力。这些都说明：记忆层正在从”应用层 hack”下沉为”平台层标配”。

Letta、Mem0、Zep：三条路线，三种赌注

这三家不是在做同一件事。它们的技术哲学和商业押注完全不同。

Letta：操作系统派

核心理念：把 LLM 当操作系统内核，记忆管理是 OS 的一部分。

Letta 脱胎于 UC Berkeley 的 MemGPT 论文（2023），核心创新是把操作系统的虚拟内存概念搬到 LLM 上——agent 有一个有限的”主内存”（上下文窗口），系统自动在主内存和”外存”之间做 paging。agent 自己决定什么时候把信息写入长期存储、什么时候调回来。

融资：$10M 种子轮（2024 年 9 月，Felicis 领投）
GitHub stars：22.4k（letta-ai/letta）
技术栈：完整的 agent runtime + 内存管理 + 工具执行，Python/TypeScript SDK
商业押注：做 stateful agent 的完整平台，不只是记忆层。2026 年推出 Letta Code（memory-first coding agent），试图证明”有记忆的 agent”在编程场景的优势

Letta 的野心最大，但风险也最大。它不是卖记忆组件，而是要你把整个 agent 跑在它的 runtime 上。这意味着跟 LangGraph、CrewAI 这些框架是竞争关系，不是互补关系。

Mem0：记忆中间件派

核心理念：做 agent 生态的”记忆层 API”，跟谁都能集成。

Mem0 的策略很清晰——不碰 agent runtime，只做记忆这一件事，但做到极致。它的定位是”universal memory layer”，通过 API 和 SDK 嵌入任何框架。

融资：$24M（Seed + Series A，2025 年 10 月，Basis Set Ventures 领投 A 轮，Peak XV、GitHub Fund、YC 参投）
GitHub stars：55.7k+（mem0ai/mem0）
技术栈：单 pass 分层提取 + 多信号检索（语义/关键词/实体三路并行），支持 20+ 向量数据库
Benchmark：LoCoMo 91.6、LongMemEval 93.4，平均每次检索仅 ~6900 token
商业押注：做记忆领域的 Stripe——标准化 API，按调用量收费。已成为 AWS Agent SDK 的独家记忆供应商

Mem0 的 14M+ 下载量和 AWS 官方集成说明它在”被选择”这件事上跑得最快。但它的风险在于：如果记忆层被基础模型厂商内化，中间件的价值就会被压缩。

Zep：知识图谱派

核心理念：记忆不是 key-value 存储，而是时序知识图谱。

Zep 走了一条跟 Mem0 完全不同的技术路线。它的核心引擎 Graphiti 是一个 temporal knowledge graph——不只存事实，还存事实之间的关系和时间维度。当用户说”我换工作了”，Zep 不是简单覆盖旧记录，而是在图谱上创建一条带时间戳的新边，保留历史演变。

融资：$500K Pre-Seed（2024 年 3 月，YC W24）——融资额远小于另外两家
GitHub stars：Graphiti 20k+，zep repo 4.5k+
技术栈：Neo4j-backed temporal knowledge graph + context assembly pipeline
论文：arXiv:2501.13956，在 DMR benchmark 上达到 94.8%，LongMemEval 上比 baseline 提升 18.5%，延迟降低 90%
商业押注：做”context engineering platform”，面向企业级合规场景（审计追踪、时序推理）

Zep 的技术路线最”重”，但在需要时序推理和合规审计的企业场景里，图谱方案有结构性优势。它的挑战是：知识图谱的构建成本高，冷启动慢，对中小开发者不够友好。

三家对比速览

维度	Letta	Mem0	Zep
核心抽象	Agent OS（内存分页）	Memory API（提取+检索）	Temporal KG（知识图谱）
集成方式	替换你的 agent runtime	嵌入任何框架	嵌入或独立部署
融资规模	$10M	$24M	$500K
开源热度	22k stars	55k+ stars	20k+ stars（Graphiti）
最强场景	需要 agent 自主管理记忆	快速集成、大规模部署	时序推理、企业合规
最大风险	框架锁定，生态竞争	被模型厂商内化	冷启动成本高

记忆层会被基础模型吞掉吗？

这是最常见的反对意见：“等 GPT-6 上下文窗口到 10M token，谁还需要外部记忆层？”

说实话，这个质疑不是没道理。OpenAI 在 2025 年 4 月就给 ChatGPT 加了跨会话记忆功能，GPT-5.5 Instant 进一步强化了内置记忆。Google Gemini 的百万 token 窗口也在暗示”把所有东西塞进去”的路线。

但我认为这个论点有三个致命盲点：

第一，成本和延迟是硬约束。 即使窗口能装下 10M token，每次推理都处理 10M token 的计算成本是灾难性的。Mem0 的数据很说明问题：选择性检索用 ~7000 token 就能达到比 full-context 更高的准确率。在生产环境里，”能做到”和”做得起”是两回事。

第二，模型内置记忆是黑箱。 ChatGPT 的记忆功能你没法审计、没法导出、没法跨模型迁移。对企业来说，这不可接受。你的用户画像锁死在一个供应商的黑箱里，这不是技术问题，是商业风险。Mem0 创始人 Deshraj Yadav 把这叫”memory passport”——你的 AI 记忆应该像邮箱一样可以跨应用携带。

第三，记忆不只是”记住”，还有”遗忘”和”演变”。 用户三个月前说喜欢 Python，上周说在学 Rust——系统需要理解这是偏好演变，不是矛盾。Zep 的时序图谱和 Mem0 的 temporal reasoning（+29.6 分提升）都在解决这个问题。把所有历史塞进窗口不会自动解决语义层面的”什么该记、什么该忘”。

所以我的判断是：基础模型会吞掉”简单记忆”（比如 ChatGPT 记住你的名字），但不会吞掉”工程化记忆”（跨应用、可审计、可迁移、有时序推理的记忆基础设施）。 就像数据库没有被操作系统吞掉一样——它们是不同层次的抽象。

开发者怎么选？按场景给建议

别被 star 数迷惑。选记忆方案的核心问题是：你的 agent 需要记住什么、记多久、给谁用？

场景一：快速原型 / 个人项目

推荐：Mem0 开源版或 LangMem

理由：Mem0 的 Python SDK 三行代码就能跑起来，LangMem 跟 LangGraph 无缝集成。不需要额外基础设施，InMemoryStore 就够用。

from mem0 import MemoryClient
client = MemoryClient(api_key="your-key")
client.add("用户偏好 dark mode", user_id="test")

场景二：生产级 SaaS，需要跨会话个性化

推荐：Mem0 Cloud

理由：已经是 AWS Agent SDK 的官方记忆供应商，集成文档最全（21 个框架集成），benchmark 数据最透明。按 API 调用计费，不需要自己运维向量数据库。

场景三：企业内部 agent，有合规和审计要求

推荐：Zep（自托管）

理由：temporal knowledge graph 天然支持审计追踪——每条记忆都有时间戳和来源。自托管意味着数据不出内网。图谱结构让”为什么 agent 这样回答”变得可解释。

场景四：需要 agent 自主学习和自我改进

推荐：Letta

理由：Letta 的 agent 能自己决定写入和读取记忆，不需要外部编排。如果你的场景是长期运行的 agent（比如个人助手、coding agent），需要 agent 自己积累经验并改进行为，Letta 的 OS 式架构最合适。

场景五：已经深度使用 LangGraph

推荐：LangMem SDK + Zep Cloud

理由：LangMem 是 LangChain 官方出品，跟 LangGraph 的 BaseStore 原生集成。如果需要更强的时序推理，加上 ZepCloudMemory 作为后端。

FAQ

Q1：AI agent 长期记忆和 RAG 有什么区别？

RAG（检索增强生成）从静态文档库中检索信息，适合知识问答。Agent 长期记忆则是从动态交互历史中提取、更新和检索个性化信息。核心区别在于：RAG 的数据源是预先准备的文档，记忆层的数据源是 agent 运行时产生的交互。两者可以共存——RAG 提供领域知识，记忆层提供用户上下文。

Q2：Mem0、Letta、Zep 三家会不会最终合并成一个标准？

短期内不会。三家的技术路线差异太大：Mem0 是 API-first 的中间件、Letta 是完整 runtime、Zep 是图谱引擎。更可能的演变是：出现一个类似 OpenTelemetry 的接口标准，让不同实现可以互换，但底层引擎保持多样性。

Q3：context window 越来越大，还需要外部记忆层吗？

需要。窗口大小解决的是”能不能装下”，记忆层解决的是”该不该装进去”以及”怎么高效地找到需要的部分”。Mem0 的 benchmark 数据显示，选择性检索（~7000 token）比 full-context（26000+ token）在准确率和成本上都更优。生产环境中，成本和延迟是硬约束。

Q4：如何评估一个 agent memory 方案的质量？

看三个维度：（1）准确率——推荐用 LoCoMo、LongMemEval、BEAM 这三个公开 benchmark 测试；（2）token 效率——每次检索消耗多少 token；（3）时序能力——能否正确处理信息的更新和演变。不要只看 demo 效果，要跑标准化测试。

Q5：自建 agent memory 还是用第三方服务？

如果你的团队有能力维护向量数据库和检索管线，且有数据合规要求，自建（基于 Mem0 开源版或 Graphiti）是合理选择。如果你想快速上线且规模可控，Mem0 Cloud 或 Zep Cloud 的托管服务能省大量运维成本。关键判断标准：你的记忆数据是否属于核心资产——如果是，自建；如果不是，托管。

Stay updated with our latest AI insights