合成数据正在反噬 AI？2027 年撞上数据天花板的真实概率

🇺🇸
Read in English: Synthetic Data Feedback Loop: Will AI Hit a Data Ceiling in 2027?

2024 年 Epoch AI 给出了一个让整个行业紧张的预测：高质量公开文本数据将在 2026 到 2032 年之间用完。同年 7 月，Nature 封面刊登了 Shumailov 等人的论文，用一张视觉冲击力极强的图证明，当模型递归地用自己上一代生成的数据训练，几代之后输出会塌缩成毫无意义的噪声，他们把这个现象叫”model collapse”。两件事撞在一起，业界开始流传一个简洁的故事：互联网快被 AI 抓干了，而 AI 用合成数据自我训练又会中毒，所以 scaling law 即将在 2027 年前后撞墙。

我不太相信这个故事。它在媒体语境里很性感，但把”训练数据短缺”和”模型崩溃”混在一起讨论，本身就是一个范畴错误。短期看，合成数据是救星，几乎所有前沿实验室都在用，没有它你根本造不出 GPT-4 级别以上的模型；长期看，纯递归式合成数据训练确实是毒药，没有人会真的那么干。真正决定 2027 年走向的，不是”还剩多少 token”，而是数据多样性、反馈机制、多模态扩张和 Agent 交互数据这四件事的进展。下面我把这件事拆开讲。

合成数据热潮：从权宜之计到默认配置

合成数据不是新东西。AlphaGo Zero 早在 2017 年就证明了，自我对弈生成的数据足以让模型超越人类。真正的拐点是 2023 到 2024 年，各家把这套思路从游戏挪到了语言。

Anthropic 的 Constitutional AI 把人类反馈环节里的相当一部分换成了模型自己根据”宪法”产生的反馈，事实上是把昂贵的人工偏好数据换成了可规模化的合成偏好数据。OpenAI 在 GPT-4 之后越来越依赖蒸馏式合成：用强模型生成高质量推理链，再用来训练较小的模型，o1 系列的训练本质上离不开这套循环。Google DeepMind 在 Gemini 训练里大量使用代码执行轨迹和数学求解过程作为合成监督信号。Meta 的 Llama 3 技术报告直接承认，后训练阶段的数据相当大比例由模型自身生成并过滤。Microsoft 的 Phi 系列更激进，整个卖点就是”教科书级合成数据”。

所以现状是：合成数据已经不是 plan B，而是默认配置。再讨论”要不要用”已经过时，问题是”怎么用、用到哪一步会出问题”。

模型崩溃论文到底说了什么，又没说什么

Nature 那篇 model collapse 论文做的实验场景非常具体：每一代都用上一代模型生成的数据，几乎完全替换掉原始数据，然后递归训练。在这种纯递归条件下，分布的尾部会被快速削平，方差不断收缩，几代之后小语言模型确实开始输出退化的废话。论文的图很有传播力，因为它直观地展示了”AI 吃自己拉的会拉肚子”。

但这个实验有几个常被忽略的前提。第一，它假设训练数据中合成数据的比例接近 100%，原始数据被清掉。第二，模型规模相对较小，迭代代数比较多。第三，没有任何过滤、加权、混合策略，纯粹”扔进去再练”。

后续工作很快给出了反驳。Gerstgrasser 等人 2024 年那篇 “Is Model Collapse Inevitable?” 用更接近现实的设定做了对照：只要每一代都把原始真实数据保留下来与合成数据混合训练，崩溃就不会发生，模型反而能稳定提升。Feng 等人也证明了带选择和过滤的合成数据流水线可以避免方差塌缩。CMU、Stanford 几个组做的小规模复现都得出类似结论：崩溃是”假设全替换”这一极端条件的产物，不是合成数据本身的固有属性。

换句话说，model collapse 是一个真实的数学现象，但它描述的是一种没有人会真的执行的训练流程。前沿实验室谁也不会扔掉真实语料只用合成数据递归训练，这就像在问”如果只吃自己的呕吐物会怎样”——答案当然是会死，但这不是任何人的饮食方案。

为什么 2027 年不会撞上数据天花板

把视线从”文本 token 总量”挪开，会看到四股力量正在重新定义”训练数据”这件事。

一、多模态正在打开一个大 100 倍的粮仓

文本是 AI 最早消化掉的部分，恰恰因为它最容易抓取。但人类信息载体里，文本只是冰山一角。YouTube 每分钟新增的视频时长以百小时计，全球摄像头每天产生的视频流是 EB 级别。再加上音频、3D 扫描、机器人传感器、自动驾驶车队的路测数据、卫星和遥感影像，这部分数据的总量级保守估计是公开文本数据的 100 倍以上，而 AI 行业才刚开始系统性地利用它。

Sora 之后的视频生成模型证明了一点：视频帧之间的物理一致性、时间因果、空间结构，这些”世界知识”很大程度上是从视频里学到的，而不是从文字描述里。Gemini 1.5 在百万级 token 上下文中处理多小时视频的能力，DeepMind 的 RT-X、Genie 这类工作把机器人轨迹当作训练数据，都是同一个方向。当模型能从视频和具身交互里直接学到物理、空间、社会动力学，”文本数据用完了”这件事的重要性会迅速被稀释。

二、RLHF 和 RLAIF 把数据问题变成了反馈问题

预训练阶段确实需要海量数据，但越来越多的能力提升来自后训练，而后训练吃的是反馈不是 token。OpenAI 的 o1 和后续推理模型证明了，给模型一个能验证对错的环境（数学题、代码执行、形式证明），它可以在相对小的数据集上通过强化学习把推理能力推得很高。这里关键不是”还有多少新文本”，而是”还有多少可验证的任务和高质量偏好信号”。

RLAIF 进一步把人类反馈也部分替换成模型反馈。这听起来像左右手互搏，但在有明确 ground truth 或可执行验证的领域（代码、数学、工具调用），模型自己给自己打分是可行且高效的。这就把”我们快没数据训了”翻译成了”我们能不能造出更多带验证信号的环境”，后者的瓶颈完全不一样。

三、Agent 交互数据是一种新型高价值语料

随着 Claude、ChatGPT、Cursor、Devin 这类 Agent 产品规模化运行，每天都在产生新一类数据：完整的任务流、工具调用序列、错误和恢复轨迹、人类的中途纠正。这种数据在公开互联网上几乎不存在，因为它是”行动的轨迹”而不是”文字的成品”。

它的价值在于密度。一段普通的网页文本可能只有几个有用 token，而一条带工具调用、失败重试、最终成功的 Agent 轨迹，对训练”如何做事”的模型来说信息量极高。Anthropic 和 OpenAI 都在系统性地从用户交互中筛选这类数据用于后续训练（在符合各自隐私承诺的范围内）。当 Agent 走向规模化，可用的高质量交互语料量会呈指数增长，而不是衰减。

四、瓶颈从来不是 token 数，而是多样性、验证、长尾

Chinchilla 之后业界已经知道，模型规模和数据规模需要按比例匹配，但很少有人讨论”数据质量”这个变量该如何度量。从经验看，1 TB 高质量、多样化、带验证的数据，价值远超 10 TB 抓自互联网的混合垃圾。Phi 系列用几十 B token 的精选合成数据训出对标更大模型的效果，已经证明了这点。

所以真正限制 2027 年模型能力的，不会是”还剩几 T token”，而是：能不能造出覆盖足够多领域、足够多语言、足够多文化的数据；能不能在长尾任务（罕见疾病、小语种、专业领域、边缘案例）上有足够覆盖；能不能给每条训练数据配上验证信号或质量信号。这是工程问题，不是天花板问题。

真正应该警惕的风险，是另外几件事

否认 2027 年撞墙叙事，不等于说一切顺利。合成数据带来的真正风险是更隐蔽的几个。

第一是模型同质化。当所有人都在蒸馏 GPT-4 级别的强模型，用它的输出当合成数据，整个行业的模型分布会向同一个先验收敛。开源社区现在很多模型本质上是”GPT-4 的影子”，这会让生态的多样性下降，长期看反而削弱整体进步速度。

第二是长尾知识的悄然流失。合成数据是模型已知分布的采样，频率高的知识会被一再强化，频率低的会被慢慢遗忘。每经过一轮”用模型 A 生成数据训出模型 B”，长尾就会被削掉一点。这不会立刻让模型崩溃，但十年累积下来，互联网上稀有但重要的知识可能会从主流模型里消失。

第三是文化偏见放大。合成数据生成器自带偏见，用它造出的数据会把这些偏见编码进下一代模型，再下一轮又被进一步放大。英语中心化、西方中心化、主流文化中心化的问题会在合成循环里加剧，小语种和小文化会更加边缘。

第四是开源数据集污染。Common Crawl、RedPajama、各类公开 corpus 已经不可避免地混入了大量 AI 生成内容。2024 年起，从开源数据集里”洗掉合成数据”已经成为新的工业难题。这个污染不是模型崩溃，但它会让”用真实人类数据训练”这件事变成无法回头的奢侈。出生在 2024 年之后的互联网文本，可能整体上没有 2024 年之前的有训练价值。

这些风险都没有”2027 撞墙”那么戏剧化，但它们更真实、更难以扭转。

反对意见与回应

反对意见一：你低估了 model collapse，前沿实验室也避免不了。

回应：实验室手里有几样普通研究者没有的资源——海量经过质量评分的真实数据、严格的合成数据过滤管线、对每条数据来源的追踪。Anthropic 内部数据流水线公开过的细节显示，合成数据进入训练前要经过多层筛选和混合策略。崩溃是”扔进去就练”的产物，不是工业级流水线的产物。

反对意见二：多模态再多，关键的”推理能力”还是来自文本，文本耗尽就完了。

回应：这个判断对推理的来源理解过窄。最近的进展显示，推理能力越来越来自后训练里的强化学习而非预训练 token 数。o1、DeepSeek-R1、Gemini 2 系列推理变强，靠的是带验证的环境和反馈循环，不是又抓了更多文本。

反对意见三：高质量数据就是稀缺，合成的再多也补不上。

回应：部分对。维基百科、教科书、顶级期刊这种”金本位”数据确实稀缺。但用强模型把这些金本位数据”延展”成更多变体（同义改写、翻译、追问、反例生成），是把稀缺资产转化成可规模化资产的合理做法，前提是承认延展数据是衍生品而不是新增本体。Phi 这条路证明它有效。

反对意见四：你说的多样性、长尾覆盖最终还是要新数据，新数据从哪儿来？

回应：从两个新源头来。一是 Agent 交互产生的新轨迹（这类数据 2023 年前几乎不存在），二是科学实验、机器人采集、企业私有数据等”长尾私域”。后者的总量大得惊人，过去因为没有商业化路径所以没动，现在 AI 实验室与行业伙伴的数据合作正在快速展开。

给开发者和企业的建议

对正在做模型或在大量使用 AI 的团队，几条具体的：

把合成数据当杠杆，不当主食。混合策略里真实数据不能低于一个底线，根据经验保留 30% 以上原始数据，能显著降低分布塌缩风险。

为合成数据建立溯源和质量打分管线。每一条数据来自哪个模型、哪一代、用什么 prompt 生成，都要可追溯。出问题时能切片排查。

如果你训自己的领域模型，私有数据是最大的护城河。公开互联网数据的边际价值正在快速下降，你的客服记录、内部文档、操作日志、领域专有数据，是别人训不出来的部分。

警惕”用 GPT-4 蒸馏”作为长期路径。短期能快速起步，长期会让你的模型变成别人的影子。至少要在后训练阶段引入自有反馈和自有验证环境。

如果你做评测，2025 年之后越来越多的公开 benchmark 已经被训练数据污染。建立私有 holdout 测试集是必须的。

FAQ

Q1：合成数据会不会让 AI 在 2027 年集体停滞？ 不会。停滞需要四件事同时失败：多模态扩展失败、RLHF/RLAIF 见顶、Agent 交互数据不可用、私域数据无法商业化。这四件事同时失败的概率非常低。

Q2：Nature 那篇 model collapse 论文是不是被夸大了？ 论文本身是严肃的数学结果，传播过程被简化了。它证明的是”在纯递归无过滤的极端假设下崩溃必然发生”，而不是”用合成数据训练就会崩溃”。这两个结论之间差着十万八千里。

Q3：普通开发者用合成数据微调小模型会不会塌？ 可控。坚持混合真实数据、设置质量过滤、限制递归代数（不要拿自己上次微调的输出再来微调），就能避开崩溃区。少量代际、混合训练的合成数据是安全的。

Q4：Common Crawl 已经被 AI 内容污染了，未来怎么办？ 长期看会出现”2024 年前快照”作为高纯度真实数据的稀有资源。同时业界会发展更好的合成内容检测和过滤工具。但完全干净的公共互联网语料可能不会再回来了。

Q5：哪些方向值得长期下注？ 带验证信号的强化学习环境、Agent 交互数据基础设施、多模态尤其是视频和具身数据、私域数据合作、合成数据质量评估工具。这五个方向 2026 到 2028 年会非常热。

结论

“AI 用 AI 数据训练会撞墙”是一个传播效率高但精度低的故事。真实情况是：合成数据已经是默认配置，model collapse 是极端假设的产物而非工程现实，2027 年的瓶颈不会出现在 token 总量上。多模态、RLHF/RLAIF、Agent 交互数据，三股力量加在一起，足够支撑未来三到五年的模型能力扩张。

但这不意味着可以放心。模型同质化、长尾流失、偏见放大、开源数据污染，这些是合成数据时代真正的慢性病，它们不会让 AI 在某一年突然崩溃，而是让整个生态在十年的尺度上变得更窄、更同质、更脆弱。这才是值得做选择的题目。

如果非要给一个判断：2027 年我们不会看到数据天花板，但会越来越清楚地看到，决定 AI 走多远的，从来不是数据有多少，而是数据来自哪里、由谁验证、覆盖谁的世界。

Stay updated with our latest AI insights