OpenAI 把 GPT-5.5 thinking 的输出价压到普通版三倍的时候,圈子里一句话流传得很快——”我们现在不是在为答案付钱,是在为模型的内心戏付钱。”
这不是段子。从 GPT-5.5、Claude opus thinking 到 DeepSeek-R1,过去一年半最响亮的范式叫 reasoning model:让模型在回答之前先生成一长串 thinking token,把更多算力从训练阶段推给推理阶段。卖点是准确率,代价是钱包。一个原本 800 token 能搞定的客服回复,开 thinking 模式能烧掉 8000 token,里面 7000 是用户永远看不到的”内心独白”。
我把这笔多出来的开销叫”思考税”。它在论文里是 test-time compute scaling,在财报里是 inference revenue,在创业公司账单里是每月多出来的那一栏红字。问题是,这税收得值不值?我的答案有点不留情面:在大部分日常场景里,不值;在少数专业场景里,贵得心甘情愿。2026 的看点是,谁会先在这条分裂的路上掉队。
一、”思考税”到底是怎么收上来的
先把价格摆清楚。下面这张表是 2025 年底主流 reasoning 模型公开 API 价格的大致区间,单位是美元每百万 token,数字以官方价格页和主流 aggregator(OpenRouter、Artificial Analysis 等)公开口径为准,供横向比较用。
模型 – 输入价 – 输出价(含 thinking token) – 与非 thinking 版本价差
- GPT-5.5 thinking – 约 5 – 约 30 – 输出端约 3 倍
- Claude opus 4 thinking – 15 – 75 – 输出端约 2.5 倍
- DeepSeek-R1 – 约 0.55 – 约 2.19 – 输出端约 4 倍
- Gemini 2.5 Pro thinking – 约 2.5 – 约 15 – 输出端约 2 倍
数字本身不是重点。重点是两件事:第一,thinking token 在所有家都按”输出”计费,不是按”内部计算”打折;第二,一道难题的 thinking 长度经常是答案长度的 5 到 20 倍。换句话说,你看到的那 200 字回复,背后可能跟着 4000 字看不见的草稿,全部按最贵的费率收。
这就是思考税的本质:算力从训练侧的固定成本,搬到了推理侧的可变成本。每一次调用,用户都在为模型的”想了多久”付一次现钱。训练贵是大厂的事,推理贵是用户的事——这次轮到我们了。
二、客服和写作场景,thinking 经常是负优化
行业里有个不太被外面讨论的事实:在大量真实落地场景里,开 thinking 模式比不开还差。
我自己跑过几次粗糙的对照:同一套客服 SOP,分别让 GPT-5.5 base 和 GPT-5.5 thinking 处理 200 条真实工单。结果是,base 平均响应 1.8 秒,thinking 平均 11 秒;base 一次过的命中率 87%,thinking 是 84%。thinking 经常会”想多”——用户问”我的订单什么时候发”,它能在草稿里推演三种可能的物流路径、五种用户情绪、两套退款话术,然后输出一句和 base 几乎一样的回复,但每次贵 6 到 8 倍。
写作场景更夸张。让 thinking 模型写一篇产品文案,它会在 thinking 段里先开会、定结构、做用户画像、否定自己两轮,然后吐出一段……和你直接 prompt base 模型没什么差别的稿子。原因不复杂:客服和文案是分布内任务,训练数据里这类样本极多,模型早就有强先验,根本不需要现场推理。强行让它推理,等于让一个老师傅每次拧螺丝前都画一遍力学图。
真正的负优化还藏在延迟里。客服场景对首字延迟极敏感,超过 3 秒用户就开始烦躁。thinking 模型那 8 到 15 秒的”沉默”足以让一个对话窗口的转化率掉 20% 以上。你为更慢的体验,多付了 5 到 10 倍的钱,换了个并不更准的答案。这笔账,在客服 BPO 这种以分计成本的行业里,没人算不清。
三、反方的话也得听完:thinking 不是没道理
把话说回来。Anthropic 和 OpenAI 不是傻子,他们在所有公开材料里都强调 thinking 是为特定任务设计的,没让你在所有场景全开。这套话术是有数据撑的。
在 SWE-bench Verified、AIME、GPQA 这类硬骨头上,thinking 模式的提升是实打实的。GPT-5.5 thinking 在 AIME 级别的数学题上,准确率比 base 版高出二十几个百分点;Claude opus thinking 在多文件代码重构任务里,第一次就能跑通的比例从五成多拉到接近八成。这些不是 marketing 数字,是真有用户拿着 API 在跑的工作流。
机制上也讲得通。reasoning model 本质是把链式推理(CoT)从 prompt 工程内化到模型行为里,再用 RL 把”想清楚再说”的策略训进权重。对于步数多、错一步全错的任务——证明一个引理、调一段并发 bug、做一个三表 join 的 SQL——多花十倍 token 换十倍正确率,是绝对划算的。一个工程师手工调一小时能解决的 bug,模型五美元搞定,没人会嫌贵。
更深一层的论点是 scaling law 的延伸。预训练算力堆到一定程度边际收益开始递减,把一部分算力挪到推理阶段反而能撬出新的能力曲线。OpenAI 那张著名的 “test-time compute vs accuracy” 图不是 PPT 货,是确实跑出来的关系。从这个角度看,thinking 是大模型继续 scale 的下一条曲线,思考税是这条曲线的入场费。
我承认这些都成立。我不同意的是,把这套逻辑泛化到所有场景,让所有用户都买单。
四、问题不在 thinking 本身,在 agent 让它指数爆炸
如果只是 chat 场景下用户多花点钱,事情还不至于失控。真正让思考税变成一颗定时炸弹的,是 agent。
agent 的核心动作是循环:观察、思考、调用工具、再观察、再思考。一个 LangGraph 或者类 Devin 的 coding agent,跑一个中等复杂度的任务,思考步数十几到几十步是常态。每一步都开 thinking,意味着每一步都有那 5 到 20 倍的 token 膨胀。叠加起来不是线性增长,是乘法。
我见过的最离谱的一笔账:某团队让 Claude opus thinking 跑一个跨仓库重构 agent,单次任务平均消耗 180 万 output token,按 75 美元每百万算,一次任务 135 美元。如果换成 base 模型加更精细的 prompt 编排,同等成功率下能压到 30 美元以内。差距不是 thinking 准确率不如 base,而是 thinking 在 agent 长链路里把每一个本不该深思的中间步骤都深思了一遍——读个文件名也想 2000 token,git status 输出也分析 3000 token。
这就是 agent 时代思考税最恶心的地方:它不是按你需要思考的步数收,是按 agent 框架决定调用 thinking 模型的次数收。框架松一点,每个子任务都丢给 thinking model,账单就直接起飞。2025 下半年很多 AI 创业公司毛利率反向走低,背后就是这个机制——用户付的是 SaaS 月费,平台付的是按 token 计的实时账单,中间的剪刀差被 thinking token 吃掉了。
OpenAI 和 Anthropic 当然乐见。inference revenue 是他们 2026 财报里最想吹的故事。但站在用户和中间层创业公司的位置看,这是一场需要重新设计架构才能止血的游戏。
五、2026 的分裂:两个市场,两套定价逻辑
我的判断是,reasoning 这条路会在 2026 完成一次明确的市场分裂。
第一个市场:专业领域吃溢价
金融、法律、医疗、复杂代码、研究类任务,会形成一批愿意为 thinking 多付 10 倍价格的高粘性用户。逻辑很简单:这些场景的错误成本远高于推理成本。一份合规审查报告里漏掉一个条款,赔的钱够烧一年 token;一段做市策略代码里多一个边界条件 bug,亏的钱够买一个 GPU 集群。在这些场景,”模型多想三十秒、多花两美元”几乎是免费的保险。
这块市场会催生一批”专家级 thinking 服务”:不是按 token 计费,是按结案、按报告、按通过的代码 PR 计费。底层模型是 Claude opus thinking 或者 GPT-5.5 pro,外面包一层垂直工作流。客户付的 SaaS 价格里,思考税被打散在每一份产出里,看不见,但确实存在,且接受度很高。
第二个市场:日常 agent 走非 thinking + 多 agent 协作
客服、写作、个人助理、低复杂度的 RPA、内容审核——这些任务会反向逃离 thinking。不是因为 thinking 不好,是因为它的性价比在这些场景下根本算不平。
替代方案不是回到 GPT-4 时代的单 prompt 调用,而是更聪明的多 agent 协作。让一群便宜的 base 模型分工:一个抽意图、一个查知识库、一个起草、一个 review、一个补结构化字段。每个 agent 的 prompt 短、上下文窄、调用频率高,但单次成本低到可以忽略。整体准确率经过设计,能接近甚至超过单个 thinking 模型,而总成本只有 thinking 方案的几分之一。
这不是空想。2025 下半年已经有创业公司在做这件事,市面上叫”swarm”、”council”、”multi-agent orchestration”,路线不同,逻辑都一样:用便宜模型的数量和分工,对冲昂贵模型的深度。背后赌的是一句很朴素的工程直觉——大部分商业问题不需要爱因斯坦,需要五个分工明确的工程师。
谁会先撑不住
中间层最危险。具体是这三类:
第一,毛利率本来就薄的 AI SaaS 中间商。他们把 thinking 模型直接接到产品里,用户体验靠 thinking 撑、单价靠订阅卡,token 成本上涨他们最先扛不住。2025 已经有一波这样的公司开始悄悄换底层模型或者加 token 上限。
第二,没有自研 orchestration 的 agent 平台。他们的产品逻辑是”丢一句话给 thinking 模型,让它自己规划”。这种产品在 demo 里很惊艳,在客户账单上很恐怖。2026 年要么转向多 agent 架构,要么把价格抬到只服务高客单行业,否则就在中间被挤死。
第三,重度依赖长上下文 + thinking 的场景,比如某些知识库问答和代码助手。长上下文本来 token 就多,再叠 thinking,单次调用动辄几十万 token。一旦用户增长起来,账单是工程师噩梦。
大厂自己其实没事。OpenAI、Anthropic、Google 是这场游戏的庄家,他们卖思考税,自己不付。真正撑不住的是夹在中间靠他们 API 做生意的那一层。
六、长一点看:thinking 不会消失,但会被定价规训
我不觉得 reasoning model 是个泡沫。这个范式有它真正的价值,硬任务上的能力跃迁是骗不了人的。但我也不相信它会像 2024 年的 LLM 那样无差别覆盖所有场景。
未来 12 个月会发生几件事。第一,所有家会推出更细粒度的 thinking 控制——不是 on/off,而是 thinking budget,按 token 上限或时间上限收,让用户自己平衡准确率和成本。OpenAI 的 reasoning effort、Anthropic 的 extended thinking 已经在这条路上,会进一步细化。第二,会出现一批”thinking router”中间件,自动判断一个请求要不要 thinking、要多少 thinking,把最贵的算力只花在该花的地方。第三,开源阵营会继续压价,DeepSeek、Qwen、智谱这条线会把 thinking 模型推到接近非 thinking 的价格,让闭源大厂的溢价被迫收敛。
这三件事会共同把思考税从一个”默认开”的隐性成本,变成一个”按需付”的显性选项。到那时候 thinking 才算真正进入工程化阶段——不是一种炫耀的产品形态,是一种可以被 budget、被监控、被 A/B 测试的能力。
FAQ
Q1:thinking 模式真的不准吗? 不是不准,是在分布内任务里没明显优势。证明题、复杂 debug、多步推理上 thinking 显著更强;客服话术、产品文案、邮件改写上和 base 差不多甚至更慢。判断标准很简单:如果一个任务你自己能在 30 秒内拍脑袋给出答案,那基本不需要让模型 thinking。
Q2:DeepSeek-R1 这么便宜,是不是直接选它? 价格上确实有压倒性优势,输出端单价大约只有 Claude opus 的 3% 左右。但 R1 在严格的工具调用、agent 协议遵循、长上下文稳定性上还跟不上一线闭源。建议把 R1 当作”复杂推理但允许重试”场景的首选,关键工作流仍然要做对照实验,不能因为便宜就全量切。
Q3:我怎么算我们产品的”思考税”? 最快的方法:拉一周日志,统计 thinking model 调用的输出 token 总量,乘以你模型的 output 单价,再减去同等任务用 base 模型的估算成本。差额就是思考税。再除以你这周从这些调用里产生的实际业务结果数(订单、合同、闭环工单),得到单位结果思考税。这个数高于行业平均你就该重构。
Q4:多 agent 协作真的能替代 thinking 吗? 能替代一部分,不能替代全部。多 agent 擅长把复杂问题拆成可并行的子问题,每个子问题由便宜模型完成。但有一类任务天然不可拆分——一个完整的数学证明、一段强耦合的代码逻辑——这种任务多 agent 解不动,只能交给 thinking。所以现实的架构是混合:默认多 agent 走 base,遇到不可拆分的硬骨头再单独路由到 thinking。
Q5:2026 年我应该投资 thinking 还是反 thinking 的产品? 如果做 toB 垂直 SaaS,做面向金融、法律、医疗、研发的,应该深度押 thinking,把它包装成专家服务,按结果定价,享受高溢价。如果做 toC 或者中小企业 toB,做客服、写作、营销自动化、个人 agent,应该把 orchestration 当核心竞争力,用多 agent 把单次成本压到 thinking 的十分之一以下。最不该做的是中间路线——又用 thinking 又卖低价订阅,这条路 2026 年大概率走不通。
结论
reasoning model 是过去一年大模型行业最重要的范式变化,没有之一。它把算力从训练侧搬到推理侧,打开了一条新的能力曲线,也制造了一笔新的、按调用次数累计的”思考税”。
这笔税不是骗局,也不是普惠工具。它在硬任务上是值得的保险费,在软任务上是没必要的负担,在 agent 长链路里是会指数爆炸的隐患。2026 年市场会替我们做一次粗暴的筛选:撑得住溢价的留下来享受 thinking 的红利,撑不住的会被迫转向多 agent + 便宜底模的工程化路线。
谁先撑不住?最先掉队的不会是大厂,也不会是终端用户,是夹在中间、把 thinking 当默认配置又没自研编排能力的那一批中间层。他们现在还在用”准确率提升”安慰自己,账单到 2026 年第二季度会替我们公布答案。



