Splunk 每 GB 每天收你 150 到 225 美元,这个数字在 2026 年依然让很多团队肉疼。尤其是当你的日志量从 50GB 涨到 500GB,账单直接翻了十倍,但你从日志里获得的价值并没有同比增长。
我过去两年帮三个不同规模的团队做过日志平台迁移。一个 20 人的 SaaS 团队从 Splunk 切到 Grafana Loki,月账单从 8000 美元降到 1200 美元。一个 200 人的电商公司迁到 Elastic Cloud,省了 60% 但花了三个月调优。还有一个 5 人的初创团队直接用 Better Stack,10 分钟就跑起来了。
这篇文章不是简单罗列功能清单。我会从实际使用场景出发,告诉你每个工具真正擅长什么、在哪里会让你踩坑,以及什么规模的团队该选哪个。
为什么 2026 年大家都在找 Splunk 替代品
Splunk 的问题不只是贵。Cisco 在 2023 年以 280 亿美元收购 Splunk 后,产品方向明显偏向大企业安全(SIEM),中小团队的日志管理需求被边缘化了。
几个核心痛点:
- 按 GB 计费让团队不敢打日志,开发者为了省钱删掉了有用的 debug 信息
- SPL 查询语言学习曲线陡峭,新人上手至少要两周
- 自托管版本(Splunk Enterprise)运维复杂度高,需要专人维护索引和存储
- 2026 年 Splunk Cloud 强制推 SVC(Splunk Virtual Compute)计费模式,老用户续约价格普遍涨了 20-40%
好消息是,替代品在 2026 年已经非常成熟。下面四个是我实际用过、并且推荐给不同场景的选择。
四款工具快速对比
| 维度 | Elastic (ELK) | Grafana Loki | Better Stack | Axiom |
|---|---|---|---|---|
| 定价模式 | 按资源/节点 | 按存储量 | 按日志量 | 按摄入量 |
| 起步价 | 免费自托管 / Cloud $95/月 | 免费自托管 / Cloud 免费层 50GB | $24/月起 | 免费层 500GB/月 |
| 全文搜索 | 极强(倒排索引) | 弱(只索引标签) | 中等 | 强 |
| 学习曲线 | 高 | 中 | 低 | 低 |
| 自托管 | 支持 | 支持 | 不支持 | 不支持 |
| SIEM 能力 | 强 | 弱 | 弱 | 中 |
| K8s 集成 | 好 | 极好 | 好 | 好 |
| 适合规模 | 50-5000 人 | 10-500 人 | 5-100 人 | 5-200 人 |
Elastic(ELK Stack):全文搜索王者,但运维是个坑
Elastic 是 Splunk 最直接的替代品。Elasticsearch 的倒排索引让你能在 TB 级日志里做毫秒级全文搜索,这一点目前没有对手。
真正的优势:
- 搜索性能碾压其他方案,复杂查询(正则、聚合、嵌套)都能快速返回
- 统一平台覆盖日志、APM、SIEM、搜索,减少工具碎片化
- Elastic 官方数据显示,从 Splunk 迁移的企业平均 TCO 降低 30-60%
- 2026 年新增的 AI Assistant 能用自然语言查日志,降低了 KQL 学习门槛
踩坑经验:
- 自托管 ELK 的运维复杂度被严重低估。分片管理、索引生命周期、JVM 调优,没有专人盯着迟早出问题
- Elastic Cloud 的定价按部署规模算,日志量大了之后并不便宜(100GB/天大概 $3000-5000/月)
- Kibana 的 dashboard 功能强大但配置繁琐,做一个像样的看板要花半天
- License 历史复杂(SSPL → ELv2),部分功能在免费版里被锁了
适合谁: 需要强全文搜索、有安全合规需求(SIEM)、团队里有 1-2 个熟悉 Elastic 的工程师、日志量在 50-500GB/天的中大型团队。
Grafana Loki:成本杀手,K8s 原生玩家的首选
Loki 的设计哲学很简单:不索引日志内容,只索引标签(labels)。这让它的存储成本比 Elasticsearch 低 10 倍以上,因为日志原文直接压缩存到对象存储(S3/GCS)里。
真正的优势:
- 成本极低。100GB/天的日志,自托管 Loki 的存储成本大概 $200-400/月(对比 Splunk 的 $15000+/月)
- 和 Prometheus + Grafana 无缝集成,如果你已经用 Prometheus 做监控,Loki 是零摩擦的选择
- LogQL 查询语言和 PromQL 语法一致,Prometheus 用户上手极快
- Kubernetes 原生设计,Promtail/Alloy 采集器部署简单
- Grafana Cloud 免费层给 50GB/月,小团队够用了
踩坑经验:
- 不索引内容意味着全文搜索很慢。如果你经常需要在海量日志里搜一个 error message,Loki 会让你等
- 高基数标签(high cardinality labels)是性能杀手,比如把 user_id 当标签用会直接拖垮集群
- 自托管的分布式模式(微服务部署)配置复杂,建议中小团队直接用 Grafana Cloud
- 没有内置告警规则引擎(需要配合 Grafana Alerting),不如 Splunk 开箱即用
适合谁: 已经在用 Prometheus + Grafana 的团队、K8s 重度用户、对成本敏感但不需要频繁全文搜索的场景、日志量大但查询模式以标签过滤为主的团队。
Better Stack:10 分钟上手,小团队的最优解
Better Stack(前身 Logtail)是这四个里面上手最快的。注册账号、装个 agent、看到日志,整个过程不超过 10 分钟。它把日志管理、uptime 监控、事件管理整合在一个产品里,对小团队来说省了很多拼凑工具的时间。
真正的优势:
- 开箱即用的体验是真的好。UI 干净、文档清晰、不需要任何运维知识
- 2026 年新增了 eBPF 服务地图和 OpenTelemetry 原生支持,不再只是”简单的日志工具”
- 内置 uptime 监控和事件管理(on-call),一个工具解决三个问题
- SQL-like 查询语法,比 SPL 和 KQL 都好学
- 号称比 Datadog 便宜 30 倍(实际体验大概便宜 5-10 倍,取决于用量)
踩坑经验:
- 不支持自托管,数据必须存在他们的云上。对数据主权有要求的企业可能过不了合规
- 高级分析能力有限,复杂的聚合查询和关联分析不如 Elastic
- 没有 SIEM 功能,纯安全场景不适用
- 日志量超过 100GB/天后,价格优势会缩小
适合谁: 5-50 人的初创团队和中小 SaaS 公司、不想花时间运维日志基础设施、需要快速搭建监控体系、日志量在 10-100GB/天的场景。
Axiom:无限保留 + 零运维,数据湖思路的日志平台
Axiom 的卖点是”摄入所有数据,永久保留,按查询付费”。它用列式存储和高压缩比把存储成本压到极低,鼓励你把所有日志都打进来,不用纠结该保留哪些、删除哪些。
真正的优势:
- 免费层给 500GB/月的摄入量,对小项目来说基本够用
- 数据保留策略灵活,不像 Splunk 那样保留越久越贵
- APL(Axiom Processing Language)基于 KQL,从 Azure 生态迁移过来的团队很熟悉
- 查询性能不错,列式存储在聚合分析场景下比 Elasticsearch 快
- 原生支持 OpenTelemetry,traces + logs + metrics 都能收
踩坑经验:
- 相对年轻的产品(2021 年成立),企业级功能还在补齐中
- 社区和生态不如 Elastic 和 Grafana 成熟,遇到问题找答案难一些
- 不支持自托管,和 Better Stack 一样是纯 SaaS
- 大规模场景下的稳定性还需要时间验证(没有 Elastic 那种十年以上的生产验证)
适合谁: 想要”全量摄入、按需查询”模式的团队、从 Azure/KQL 生态迁移的用户、日志量波动大但不想为峰值付费的场景、需要长期保留日志但预算有限的团队。
选型决策树:三个问题帮你做决定
问题 1:你需要全文搜索吗?
如果你经常需要在日志里搜索特定的 error message、stack trace 或者用户 ID,选 Elastic。Loki 在这个场景下会很慢,Better Stack 和 Axiom 能用但不如 Elastic 强。
问题 2:你有运维能力吗?
如果团队里没有人愿意维护日志基础设施,排除 Elastic 自托管和 Loki 自托管。选 Better Stack(最简单)、Axiom(功能更全)或者 Elastic Cloud / Grafana Cloud(托管版)。
问题 3:你的预算是多少?
- 月预算 < $500:Grafana Cloud 免费层 + Loki,或 Better Stack 入门版
- 月预算 $500-3000:Better Stack / Axiom / Grafana Cloud Pro
- 月预算 $3000-10000:Elastic Cloud 或 Grafana Cloud 企业版
- 月预算 > $10000:Elastic Cloud 企业版(含 SIEM)
从 Splunk 迁移的实操建议
迁移不是一天的事。根据我的经验,一个 100GB/天规模的团队,完整迁移周期大概 4-8 周。
- 先跑双写:新平台和 Splunk 并行运行 2-4 周,对比查询结果和告警准确性
- 从非关键日志开始:先迁移开发环境和非核心服务的日志,验证稳定性
- 重建告警规则:Splunk 的 saved searches 需要手动迁移到新平台的告警语法
- 培训团队:给 on-call 工程师做新工具的培训,确保紧急情况下能快速查日志
- 保留 Splunk 只读访问:历史日志查询可能还需要 Splunk,保留 30-90 天的只读权限
常见问题
Q1:Splunk 的 SPL 查询能自动转换到其他平台吗?
不能完全自动转换。Elastic 有 SPL-to-KQL 的迁移工具但覆盖率大概 70%,复杂查询需要手动改写。Loki 的 LogQL 语法完全不同,需要重写。建议先梳理最常用的 20 个查询,手动迁移这些就够覆盖 80% 的日常使用了。
Q2:开源自托管真的能省钱吗?
取决于你的运维成本。如果团队里有熟悉 K8s 和分布式系统的工程师,Loki 自托管确实能省 80%+ 的费用。但如果需要额外招人或者花大量时间调优,隐性成本可能抵消省下的钱。50 人以下的团队建议直接用托管版。
Q3:哪个工具的 AI 功能最强?
2026 年各家都在加 AI。Elastic 的 AI Assistant 能用自然语言查日志和生成告警规则;Better Stack 有 Agentic AI SRE 能自动诊断事件;Splunk 自己也有 AI 助手。但说实话,目前这些 AI 功能都还在早期阶段,别指望它们替代你的判断力。
Q4:数据合规(GDPR/等保)怎么选?
需要数据不出境:选 Elastic 自托管或 Loki 自托管,部署在自己的服务器上。Elastic Cloud 和 Grafana Cloud 都支持选择数据中心区域。Better Stack 和 Axiom 目前没有中国区节点,国内合规场景慎选。
Q5:能不能多个工具组合使用?
可以,而且很多团队就是这么做的。常见组合:Loki 处理高量低价值日志(access log、debug log),Elastic 处理需要全文搜索的应用日志和安全日志。用 OpenTelemetry Collector 做统一采集,按规则路由到不同后端。
我的最终推荐
没有”最好”的日志工具,只有最适合你当前阶段的选择:
- 刚起步、预算紧张:Better Stack 或 Axiom 免费层,10 分钟跑起来,先把日志收集的习惯建立起来
- K8s 重度用户、已有 Grafana:Loki 是不二之选,成本低、集成好、学习曲线平缓
- 需要全文搜索和安全合规:Elastic,功能最全但运维投入也最大
- 日志量大、想要简单:Axiom 的全量摄入模式让你不用纠结该保留什么
别在选型上花太多时间。选一个先用起来,三个月后如果不合适再迁移。日志平台的迁移成本比你想象的低——毕竟日志本身就是临时数据。



