小模型反击战:Haiku 4.5、Gemini Flash、GPT-nano 正在改写 AI 产业规则

小模型反击战:Haiku 4.5、Gemini Flash、GPT-nano 正在改写 AI 产业规则

2026 年最值得玩味的 AI 产业现象之一,是「小模型」正在安静但迅猛地反击。

去年这个时候,整个行业都在追 GPT-5、Opus、Gemini Ultra——越大越好,越贵越对。但今年开始,Claude Haiku 4.5、Gemini 2.5 Flash、GPT-5-nano 这些「小号选手」开始密集上新,调用价格压到 0.1 美金以下每百万 token,推理延迟拉到几百毫秒,某些任务的表现已经贴着前一代旗舰级模型。

Anthropic 今年 Q1 的财报电话会上专门讲了一段 Haiku 的使用量增长:Haiku 4.5 的调用量同比增长 480%,已经超过 Sonnet 成为 API 调用量第一。Google 的 Gemini Flash 走得更激进,Flash 8B 版本进了 AI Studio 免费层。OpenAI 这边,虽然 GPT-nano 这个名字不是官方品牌,但 o3-mini 和 gpt-4o-mini 的调用量一直是 GPT-5 的十几倍。

这不是一个工程优化故事,而是行业正在从「能力竞赛」转向「单位成本可用性竞赛」的分水岭。说得再直接一点:当一个够用的小模型比一个最强的大模型便宜 50 倍、快 10 倍、好部署 100 倍,大部分真实生产场景会倒向小模型

小模型为什么能打

先澄清一个误区:小模型不是「差模型」,它是「针对特定任务优化过的模型」。

过去两年大模型进步的主轴是「能力上限」——更复杂的推理、更长的上下文、更强的多模态。但大部分 API 调用场景并不需要能力上限。用户问一句产品客服问题、请求一段文案改写、从 PDF 抽取表格、给一段代码加注释——这些任务 90% 的复杂度都是「理解意图 + 按模板输出」,不是「解决一个数学奥赛题」。

Haiku 4.5 这一代的关键升级,不是参数量做大,而是训练数据里大幅提高了「指令遵循」和「格式化输出」的权重。模型知道用户要 JSON 就给 JSON,要一句话总结就给一句话,不会像老版本那样啰嗦半天还写点「当然,我很乐意帮助你」。

Gemini Flash 的思路类似,但走的是 MoE(混合专家)路线,单次调用只激活一小部分参数,延迟能压到 300ms 以内。Google 内部有个指标叫 TTFT(time to first token),Flash 已经做到了 150ms 以下,这个速度基本等同于「感知不到延迟」。

OpenAI 的 gpt-4o-mini 和 o3-mini 是另一种打法:在能力上更激进,愿意牺牲一些延迟换取更高的推理质量,瞄准「轻量级代理任务」这个市场。

三家的共同点是:放弃「在所有任务上都比上一代强」的执念,转而追求「在 80% 的日常任务上做到够用,价格砍到可忽略」。这是 AI 行业的「降维打击」时刻。

「够用」就够了

从客户视角看,小模型的真正价值不是「便宜」这么简单,而是「让 AI 从奢侈品变成水电煤」。

举个实际例子。一家 SaaS 公司想做「用户评论自动分类」功能,要把每条评论打标签(正面/负面/功能请求/bug 反馈)。用 Claude Opus 4.5 跑,单次调用成本大概 0.002 美金;用 Haiku 4.5 跑,成本 0.00004 美金,差 50 倍

一年处理 1000 万条评论:

Opus 版本:2 万美金

Haiku 版本:400 美金

如果 Haiku 的分类准确率是 93%,Opus 是 95%,大部分业务会选 Haiku——那 2 个百分点不值 19600 美金。

这个计算 2024 年还不成立,因为那时候小模型的「够用」只到 80% 水准,落地 PoC 可以,上生产不敢。2026 年 Haiku 4.5、Gemini 2.5 Flash 这一代已经跨过了「能打」的及格线,大部分文本理解任务的准确率都在 90% 以上。一旦越过这条线,经济模型就会从「AI 偶尔用」变成「AI 到处用」

推理成本崩塌的连锁反应

这件事会引发几个非线性变化。

第一,AI Agent 的商业模型会重新评估。

去年做 Agent 的公司最大的成本是模型调用。一个稍微复杂点的 Agent 跑一次,中间要做十几次 LLM 调用,每次用 Opus,单个任务成本一美元起跳。这个模型对 to-B 客户还能撑,做 to-C 直接破产。

小模型把单次调用成本砍到千分之一美金级别后,Agent 可以放心做「频繁调用、短任务链」的架构设计。比如一个文档助手,每次用户输入都可以跑一次意图识别(小模型)+ 一次工具调用(小模型)+ 一次回复生成(中模型),总成本几厘钱。

这种设计以前不敢做,现在敢了。意味着 Agent 的产品形态会越来越细,每个小任务独立一个 Agent,而不是堆一个「全能大 Agent」。

第二,AI 产品的毛利率模型会翻转。

AI SaaS 这两年一个隐痛是「毛利率远低于传统 SaaS」。传统 SaaS 毛利率普遍在 80% 以上,AI SaaS 因为模型调用成本高,很多公司毛利只有 50%-60%。

小模型把调用成本压下来后,毛利有机会回到 80%+。这会让资本市场重新评估 AI SaaS 的估值模型

第三,端侧 AI 重新变得现实。

Haiku 4.5、Gemini Flash 这种体量的模型,量化之后可以跑在 M 系列 Mac、高端 Android 上。Apple Intelligence 背后的 on-device 模型规模,也是这个数量级。

端侧 AI 的意义不只是隐私,更是「无网络依赖 + 零调用延迟 + 零 per-query 成本」。一旦端侧模型够用,大量轻量 AI 功能会下沉到设备,云端模型只处理重任务。

大模型还有位置,但越来越特殊

说这么多小模型的好,不是说大模型要被淘汰。恰恰相反,大模型的位置正在变得更清晰、更不可替代——它们是「解决小模型解决不了的问题」的奢侈武器。

哪些任务大模型仍然不可替代?

一是深度推理类任务。数学证明、代码架构设计、科研论文撰写,这些需要「长链条逻辑串联」的工作,小模型做不动。Opus 4.7、GPT-5.5 Thinking、Gemini 2.5 Pro Deep Think 这一类「慢思考」模型是专门给这种场景准备的。

二是多模态复杂理解。视频理解、复杂图表推理、3D 空间推理,这些任务对模型规模有硬门槛。

三是生成型创作。写小说、写剧本、做深度分析报告,风格和连贯性上大模型仍然有一档的优势。

但这些场景加起来不到 AI 调用总量的 10%。大模型正在从「默认选择」变成「特殊工具」,就像现代数据中心里还在用 Mainframe,但那是极少数场景。

对开发者和团队的含义

如果你在构建 AI 产品,2026 年的设计原则很清楚:

默认先试小模型,不够用再升级。2024 年的惯性思维是「先用最强模型跑通流程,再想办法降本」,现在应该反过来:先用小模型跑,够用就停。

根据任务类型做模型路由。一个 AI 应用不应该只用一个模型。简单分类用 Haiku,工具调用用 Sonnet,复杂推理用 Opus,延迟敏感用 Flash。把模型选择做成配置,不要写死。

别被价格锁死。现在 OpenAI、Anthropic、Google 三家小模型价格差距已经收窄到 20% 以内,选一家做主,另一家做 fallback,多云调用是标配。

关注 token 效率,不只是模型价格。小模型的 prompt 工程更关键——因为它们容错能力弱,prompt 写得烂,效果差得多。好的 prompt 能让小模型效果接近大模型,省下来的钱是实打实的。

一个更大的问题

把视角拉得再远一点。

过去两年 AI 行业的估值逻辑建立在「能力越强、需求越大」之上。但小模型反击战告诉我们:真实的 AI 需求分布,不是金字塔,是哑铃型

大量需求在「简单任务 + 巨量调用」这头,少量需求在「复杂任务 + 高价值」那头,中间带其实没有看起来那么厚。

这意味着两件事:

一是训练下一代更大模型的 ROI 正在下降。花 10 亿美金训练一个比上一代能力强 10% 的模型,但只能吸引到 5% 的需求上移——这笔账会越来越难算。GPT-5 到 GPT-6 的跃迁,大概率不会比 GPT-4 到 GPT-5 那么震撼。

二是模型层的竞争会从「能力」转向「成本效率」。谁能把小模型的单位智能成本继续砍到更低,谁能在推理硬件上更高效,谁能把上下文窗口的有效利用率做到更高——这些才是 2026-2027 的真正胜负手。

DeepSeek 当年做 V3 一战成名,靠的就是这个:在能力差不多的前提下,把训练成本压到同行的几分之一。当时被当做黑马,现在回头看是时代方向。

结尾:小而美的时代

2025 年是「大模型军备竞赛」的终章。2026 年开始,真正卷的是谁能把 AI 做成基础设施,而不是谁家模型上 leaderboard

小模型的反击不是「弱者逆袭」,而是整个行业的注意力从「秀肌肉」回到「解决实际问题」的自然转向。对开发者、创业者、投资人来说,这个信号很清晰:

别迷信大模型。你的产品 80% 的需求,小模型已经能搞定。省下来的不只是钱,还有让 AI 深度渗透到每一个微小场景的机会。

这个时代最好的 AI 产品,可能不是那些调用 Opus 的超级应用,而是把 Haiku、Flash、nano 用得最聪明、最到位的那些不起眼的工具。水电煤不是明星,但它们才是改变世界的东西。

Stay updated with our latest AI insights

Follow FuturePicker on Google
滚动至顶部