合成数据正在反噬 AI?2027 年撞上数据天花板的真实概率

合成数据正在反噬 AI?2027 年撞上数据天花板的真实概率

2024 年 Epoch AI 给出了一个让整个行业紧张的预测:高质量公开文本数据将在 2026 到 2032 年之间用完。同年 7 月,Nature 封面刊登了 Shumailov 等人的论文,用一张视觉冲击力极强的图证明,当模型递归地用自己上一代生成的数据训练,几代之后输出会塌缩成毫无意义的噪声,他们把这个现象叫”model collapse”。两件事撞在一起,业界开始流传一个简洁的故事:互联网快被 AI 抓干了,而 AI 用合成数据自我训练又会中毒,所以 scaling law 即将在 2027 年前后撞墙。

我不太相信这个故事。它在媒体语境里很性感,但把”训练数据短缺”和”模型崩溃”混在一起讨论,本身就是一个范畴错误。短期看,合成数据是救星,几乎所有前沿实验室都在用,没有它你根本造不出 GPT-4 级别以上的模型;长期看,纯递归式合成数据训练确实是毒药,没有人会真的那么干。真正决定 2027 年走向的,不是”还剩多少 token”,而是数据多样性、反馈机制、多模态扩张和 Agent 交互数据这四件事的进展。下面我把这件事拆开讲。

合成数据热潮:从权宜之计到默认配置

合成数据不是新东西。AlphaGo Zero 早在 2017 年就证明了,自我对弈生成的数据足以让模型超越人类。真正的拐点是 2023 到 2024 年,各家把这套思路从游戏挪到了语言。

Anthropic 的 Constitutional AI 把人类反馈环节里的相当一部分换成了模型自己根据”宪法”产生的反馈,事实上是把昂贵的人工偏好数据换成了可规模化的合成偏好数据。OpenAI 在 GPT-4 之后越来越依赖蒸馏式合成:用强模型生成高质量推理链,再用来训练较小的模型,o1 系列的训练本质上离不开这套循环。Google DeepMind 在 Gemini 训练里大量使用代码执行轨迹和数学求解过程作为合成监督信号。Meta 的 Llama 3 技术报告直接承认,后训练阶段的数据相当大比例由模型自身生成并过滤。Microsoft 的 Phi 系列更激进,整个卖点就是”教科书级合成数据”。

所以现状是:合成数据已经不是 plan B,而是默认配置。再讨论”要不要用”已经过时,问题是”怎么用、用到哪一步会出问题”。

模型崩溃论文到底说了什么,又没说什么

Nature 那篇 model collapse 论文做的实验场景非常具体:每一代都用上一代模型生成的数据,几乎完全替换掉原始数据,然后递归训练。在这种纯递归条件下,分布的尾部会被快速削平,方差不断收缩,几代之后小语言模型确实开始输出退化的废话。论文的图很有传播力,因为它直观地展示了”AI 吃自己拉的会拉肚子”。

但这个实验有几个常被忽略的前提。第一,它假设训练数据中合成数据的比例接近 100%,原始数据被清掉。第二,模型规模相对较小,迭代代数比较多。第三,没有任何过滤、加权、混合策略,纯粹”扔进去再练”。

后续工作很快给出了反驳。Gerstgrasser 等人 2024 年那篇 “Is Model Collapse Inevitable?” 用更接近现实的设定做了对照:只要每一代都把原始真实数据保留下来与合成数据混合训练,崩溃就不会发生,模型反而能稳定提升。Feng 等人也证明了带选择和过滤的合成数据流水线可以避免方差塌缩。CMU、Stanford 几个组做的小规模复现都得出类似结论:崩溃是”假设全替换”这一极端条件的产物,不是合成数据本身的固有属性。

换句话说,model collapse 是一个真实的数学现象,但它描述的是一种没有人会真的执行的训练流程。前沿实验室谁也不会扔掉真实语料只用合成数据递归训练,这就像在问”如果只吃自己的呕吐物会怎样”——答案当然是会死,但这不是任何人的饮食方案。

为什么 2027 年不会撞上数据天花板

把视线从”文本 token 总量”挪开,会看到四股力量正在重新定义”训练数据”这件事。

一、多模态正在打开一个大 100 倍的粮仓

文本是 AI 最早消化掉的部分,恰恰因为它最容易抓取。但人类信息载体里,文本只是冰山一角。YouTube 每分钟新增的视频时长以百小时计,全球摄像头每天产生的视频流是 EB 级别。再加上音频、3D 扫描、机器人传感器、自动驾驶车队的路测数据、卫星和遥感影像,这部分数据的总量级保守估计是公开文本数据的 100 倍以上,而 AI 行业才刚开始系统性地利用它。

Sora 之后的视频生成模型证明了一点:视频帧之间的物理一致性、时间因果、空间结构,这些”世界知识”很大程度上是从视频里学到的,而不是从文字描述里。Gemini 1.5 在百万级 token 上下文中处理多小时视频的能力,DeepMind 的 RT-X、Genie 这类工作把机器人轨迹当作训练数据,都是同一个方向。当模型能从视频和具身交互里直接学到物理、空间、社会动力学,”文本数据用完了”这件事的重要性会迅速被稀释。

二、RLHF 和 RLAIF 把数据问题变成了反馈问题

预训练阶段确实需要海量数据,但越来越多的能力提升来自后训练,而后训练吃的是反馈不是 token。OpenAI 的 o1 和后续推理模型证明了,给模型一个能验证对错的环境(数学题、代码执行、形式证明),它可以在相对小的数据集上通过强化学习把推理能力推得很高。这里关键不是”还有多少新文本”,而是”还有多少可验证的任务和高质量偏好信号”。

RLAIF 进一步把人类反馈也部分替换成模型反馈。这听起来像左右手互搏,但在有明确 ground truth 或可执行验证的领域(代码、数学、工具调用),模型自己给自己打分是可行且高效的。这就把”我们快没数据训了”翻译成了”我们能不能造出更多带验证信号的环境”,后者的瓶颈完全不一样。

三、Agent 交互数据是一种新型高价值语料

随着 Claude、ChatGPT、Cursor、Devin 这类 Agent 产品规模化运行,每天都在产生新一类数据:完整的任务流、工具调用序列、错误和恢复轨迹、人类的中途纠正。这种数据在公开互联网上几乎不存在,因为它是”行动的轨迹”而不是”文字的成品”。

它的价值在于密度。一段普通的网页文本可能只有几个有用 token,而一条带工具调用、失败重试、最终成功的 Agent 轨迹,对训练”如何做事”的模型来说信息量极高。Anthropic 和 OpenAI 都在系统性地从用户交互中筛选这类数据用于后续训练(在符合各自隐私承诺的范围内)。当 Agent 走向规模化,可用的高质量交互语料量会呈指数增长,而不是衰减。

四、瓶颈从来不是 token 数,而是多样性、验证、长尾

Chinchilla 之后业界已经知道,模型规模和数据规模需要按比例匹配,但很少有人讨论”数据质量”这个变量该如何度量。从经验看,1 TB 高质量、多样化、带验证的数据,价值远超 10 TB 抓自互联网的混合垃圾。Phi 系列用几十 B token 的精选合成数据训出对标更大模型的效果,已经证明了这点。

所以真正限制 2027 年模型能力的,不会是”还剩几 T token”,而是:能不能造出覆盖足够多领域、足够多语言、足够多文化的数据;能不能在长尾任务(罕见疾病、小语种、专业领域、边缘案例)上有足够覆盖;能不能给每条训练数据配上验证信号或质量信号。这是工程问题,不是天花板问题。

真正应该警惕的风险,是另外几件事

否认 2027 年撞墙叙事,不等于说一切顺利。合成数据带来的真正风险是更隐蔽的几个。

第一是模型同质化。当所有人都在蒸馏 GPT-4 级别的强模型,用它的输出当合成数据,整个行业的模型分布会向同一个先验收敛。开源社区现在很多模型本质上是”GPT-4 的影子”,这会让生态的多样性下降,长期看反而削弱整体进步速度。

第二是长尾知识的悄然流失。合成数据是模型已知分布的采样,频率高的知识会被一再强化,频率低的会被慢慢遗忘。每经过一轮”用模型 A 生成数据训出模型 B”,长尾就会被削掉一点。这不会立刻让模型崩溃,但十年累积下来,互联网上稀有但重要的知识可能会从主流模型里消失。

第三是文化偏见放大。合成数据生成器自带偏见,用它造出的数据会把这些偏见编码进下一代模型,再下一轮又被进一步放大。英语中心化、西方中心化、主流文化中心化的问题会在合成循环里加剧,小语种和小文化会更加边缘。

第四是开源数据集污染。Common Crawl、RedPajama、各类公开 corpus 已经不可避免地混入了大量 AI 生成内容。2024 年起,从开源数据集里”洗掉合成数据”已经成为新的工业难题。这个污染不是模型崩溃,但它会让”用真实人类数据训练”这件事变成无法回头的奢侈。出生在 2024 年之后的互联网文本,可能整体上没有 2024 年之前的有训练价值。

这些风险都没有”2027 撞墙”那么戏剧化,但它们更真实、更难以扭转。

反对意见与回应

反对意见一:你低估了 model collapse,前沿实验室也避免不了。

回应:实验室手里有几样普通研究者没有的资源——海量经过质量评分的真实数据、严格的合成数据过滤管线、对每条数据来源的追踪。Anthropic 内部数据流水线公开过的细节显示,合成数据进入训练前要经过多层筛选和混合策略。崩溃是”扔进去就练”的产物,不是工业级流水线的产物。

反对意见二:多模态再多,关键的”推理能力”还是来自文本,文本耗尽就完了。

回应:这个判断对推理的来源理解过窄。最近的进展显示,推理能力越来越来自后训练里的强化学习而非预训练 token 数。o1、DeepSeek-R1、Gemini 2 系列推理变强,靠的是带验证的环境和反馈循环,不是又抓了更多文本。

反对意见三:高质量数据就是稀缺,合成的再多也补不上。

回应:部分对。维基百科、教科书、顶级期刊这种”金本位”数据确实稀缺。但用强模型把这些金本位数据”延展”成更多变体(同义改写、翻译、追问、反例生成),是把稀缺资产转化成可规模化资产的合理做法,前提是承认延展数据是衍生品而不是新增本体。Phi 这条路证明它有效。

反对意见四:你说的多样性、长尾覆盖最终还是要新数据,新数据从哪儿来?

回应:从两个新源头来。一是 Agent 交互产生的新轨迹(这类数据 2023 年前几乎不存在),二是科学实验、机器人采集、企业私有数据等”长尾私域”。后者的总量大得惊人,过去因为没有商业化路径所以没动,现在 AI 实验室与行业伙伴的数据合作正在快速展开。

给开发者和企业的建议

对正在做模型或在大量使用 AI 的团队,几条具体的:

把合成数据当杠杆,不当主食。混合策略里真实数据不能低于一个底线,根据经验保留 30% 以上原始数据,能显著降低分布塌缩风险。

为合成数据建立溯源和质量打分管线。每一条数据来自哪个模型、哪一代、用什么 prompt 生成,都要可追溯。出问题时能切片排查。

如果你训自己的领域模型,私有数据是最大的护城河。公开互联网数据的边际价值正在快速下降,你的客服记录、内部文档、操作日志、领域专有数据,是别人训不出来的部分。

警惕”用 GPT-4 蒸馏”作为长期路径。短期能快速起步,长期会让你的模型变成别人的影子。至少要在后训练阶段引入自有反馈和自有验证环境。

如果你做评测,2025 年之后越来越多的公开 benchmark 已经被训练数据污染。建立私有 holdout 测试集是必须的。

FAQ

Q1:合成数据会不会让 AI 在 2027 年集体停滞? 不会。停滞需要四件事同时失败:多模态扩展失败、RLHF/RLAIF 见顶、Agent 交互数据不可用、私域数据无法商业化。这四件事同时失败的概率非常低。

Q2:Nature 那篇 model collapse 论文是不是被夸大了? 论文本身是严肃的数学结果,传播过程被简化了。它证明的是”在纯递归无过滤的极端假设下崩溃必然发生”,而不是”用合成数据训练就会崩溃”。这两个结论之间差着十万八千里。

Q3:普通开发者用合成数据微调小模型会不会塌? 可控。坚持混合真实数据、设置质量过滤、限制递归代数(不要拿自己上次微调的输出再来微调),就能避开崩溃区。少量代际、混合训练的合成数据是安全的。

Q4:Common Crawl 已经被 AI 内容污染了,未来怎么办? 长期看会出现”2024 年前快照”作为高纯度真实数据的稀有资源。同时业界会发展更好的合成内容检测和过滤工具。但完全干净的公共互联网语料可能不会再回来了。

Q5:哪些方向值得长期下注? 带验证信号的强化学习环境、Agent 交互数据基础设施、多模态尤其是视频和具身数据、私域数据合作、合成数据质量评估工具。这五个方向 2026 到 2028 年会非常热。

结论

“AI 用 AI 数据训练会撞墙”是一个传播效率高但精度低的故事。真实情况是:合成数据已经是默认配置,model collapse 是极端假设的产物而非工程现实,2027 年的瓶颈不会出现在 token 总量上。多模态、RLHF/RLAIF、Agent 交互数据,三股力量加在一起,足够支撑未来三到五年的模型能力扩张。

但这不意味着可以放心。模型同质化、长尾流失、偏见放大、开源数据污染,这些是合成数据时代真正的慢性病,它们不会让 AI 在某一年突然崩溃,而是让整个生态在十年的尺度上变得更窄、更同质、更脆弱。这才是值得做选择的题目。

如果非要给一个判断:2027 年我们不会看到数据天花板,但会越来越清楚地看到,决定 AI 走多远的,从来不是数据有多少,而是数据来自哪里、由谁验证、覆盖谁的世界。

Stay updated with our latest AI insights

Follow FuturePicker on Google
滚动至顶部