月底打开 Datadog 账单,发现比上个月又涨了 30%,但团队人数根本没变——这种事你经历过吗?
不是你一个人。Datadog 按主机收钱的模型,碰上容器化就成了无底洞。多拆一个微服务、多扩一个 Pod,账单就跟着涨。OpenObserve 今年 1 月做过一次实测,同样 16 个服务的环境,从 Datadog 搬到开源方案之后成本直降 90%。
所以越来越多团队在认真找替代品。但可观测性工具少说二三十款,挑花眼太正常了。
这篇文章帮你把范围收窄到四个:SigNoz、Grafana Cloud、New Relic、Better Stack。我从定价、功能、部署方式、适用场景四个角度做横评,省得你一个个去试。
可观测性(Observability)是指通过系统输出的日志、指标和调用追踪数据,推断系统内部状态的能力。跟传统监控只看预设指标不同,可观测性强调在未知故障场景下也能快速定位问题根因。根据 Gartner 2025 年报告,到 2026 年超过 70% 的企业会将可观测性视为核心基础设施能力。
你为什么想换掉 Datadog?
聊替代品之前,先把痛点理清楚。翻了 2026 年社区里的吐槽帖和好几篇对比评测,团队离开 Datadog 的理由基本就三类:
账单像开盲盒。 Datadog 有 30 多个计费项,APM 按主机收(Pro 版 $36/月/主机),日志按 GB 收,自定义指标另算。你以为只开了三四个功能,月底一看,冒出来一堆没注意到的附加费。
容器化场景下成本刹不住车。 按主机计费碰上 Kubernetes 就很亏——每个 Node 都算一台主机,水平扩缩容直接乘以单价。一波流量高峰过去,账单可能翻一倍。
被锁死了。 Datadog 用自己的数据格式和查询语言,迁移成本不低。用得越深,想走就越难,仪表盘、告警规则全得重来。
如果你主要是嫌贵(前两条),开源方案和按用量计费的 SaaS 都可以看看。如果是怕锁定(第三条),优先挑支持 OpenTelemetry 的工具。
四款工具速览
先上一张表建个大概印象,细节后面展开。
| 维度 | SigNoz | Grafana Cloud | New Relic | Better Stack |
|---|---|---|---|---|
| 定位 | 开源全栈可观测性 | 可组合 LGTM 栈 | 企业级全栈 APM | 日志 + Uptime 监控 |
| 部署 | 自托管 / Cloud | 自托管 / Cloud | 纯 SaaS | 纯 SaaS |
| 怎么收费 | 按数据量 | 按数据量 | 按用户 + 数据量 | 按数据量 |
| OpenTelemetry | 原生支持 | 支持 | 支持 | 部分支持 |
| 免费额度 | 社区版完全免费 | 很大方的免费层 | 100GB/月免费 | 有限免费层 |
| 适合谁 | 有运维能力的中小团队 | 已用 Prometheus 的团队 | 大厂 | 小团队 / 独立开发者 |
SigNoz:开源阵营里的全能型选手
SigNoz 是这四个里唯一完全开源(Apache 2.0)的全栈可观测性平台,日志、指标、调用追踪塞在一个界面里,底层拿 ClickHouse 做存储,查询速度挺快。
省钱这块没什么好说的,优势太明显。 自托管版软件免费,你只掏服务器和存储的钱。日均处理 50GB 以上日志的团队,跟 Datadog 比能省 70-90%。SigNoz Cloud 的定价也透明——按摄入量算,没有藏着掖着的附加项。
技术上,SigNoz 从第一天就围着 OpenTelemetry 建的,不是后来硬加的适配层。用标准 OTel SDK 就能接入,以后想换平台也不用改业务代码。
但有几个坑得提前知道。 自托管要自己维护 ClickHouse 集群,小团队扛不住这个运维量。ClickHouse 吃资源不少,至少准备 3 台 8C16G 的机器才跑得稳。集成数量跟 Datadog 的 700+ 没法比,SigNoz 主要靠 OTel 社区的集成,有些中间件的仪表盘得自己配。
谁该选它: 有一两个 DevOps、日志量大、对成本敏感、不怕自己搞基础设施的中型团队。
Grafana Cloud:Prometheus 用户的天然升级路径
团队已经在跑 Prometheus + Grafana?那 Grafana Cloud 几乎是最顺的升级选择。它把 Prometheus(指标)、Loki(日志)、Tempo(链路追踪)、Grafana(可视化)打包成托管服务,不用再自己维护这一整套了。
核心卖点是灵活。 计费项只有 11 个(Datadog 有 30 个),定价结构简单很多。你可以按需开组件——只要指标监控就只开 Prometheus,要日志再加 Loki,不为用不到的功能掏钱。
免费层也大方:10,000 个指标序列、50GB 日志、50GB 调用追踪。小团队可能压根不用花钱。
绕不开的问题是学习曲线。 Grafana 仪表盘配置灵活归灵活,代价是你得学 PromQL、LogQL 这些查询语言。Datadog 那种开箱即用的感觉,在 Grafana 这边需要更多前期投入。告警配置也比较散,指标告警和日志告警是两套东西,统一管理没 Datadog 顺手。
谁该选它: 已经在用 Prometheus/Grafana 开源栈的团队,或者技术底子厚、追求最大灵活性的 DevOps 团队。
New Relic:大厂的稳妥选择
New Relic 2020 年做了一次大转型——从按主机收费改成”按用户 + 数据量”,还给了每月 100GB 免费数据摄入。这让它在企业市场重新站住了脚。
强在全面和成熟。 APM、基础设施监控、日志、浏览器监控、移动端监控、Serverless 监控……你能想到的可观测性场景它基本都有,每个模块打磨了好多年,稳定性和功能深度都过关。它的 AI 辅助(New Relic AI)2026 年进步不小,异常检测和根因分析对大规模环境的故障排查确实有用。
但定价有自己的坑。 虽然不按主机收了,改成按”全平台用户”收——每人每月 $549(标准版)或 $849(Pro 版)。10 个工程师要访问 New Relic,光用户费就是 $5,490-$8,490/月,数据超量还得另算。SigNoz 在一篇对比文章里直接说:New Relic 本质上是”用一种复杂计费换了另一种复杂计费”。这话带竞争对手立场,但确实戳到了点子上——New Relic 对小团队真不便宜。
谁该选它: 50 人以上的工程团队,需要企业级 SLA 和合规支持,预算够,想用一个平台搞定所有可观测性需求。
Better Stack:把简单做到极致
Better Stack(前身 Logtail + Better Uptime)走的路完全不一样。不追求大而全,就把日志管理和 Uptime 监控两件事做到极致简单。
上手体验可能是四个里最好的。 注册完几分钟就能收日志,界面干净,不用学查询语言。日志搜索很快(底层也是列式存储),”我就想快速查个日志”这种场景下,体验比 Datadog 和 Grafana 都好。Uptime 监控和事件管理也不错,支持 Slack、PagerDuty、短信等通知渠道,还有个好看的状态页。
短板也很明显:它不是完整的可观测性平台。 没有 APM,没有 Trace 功能。想看请求在微服务间怎么跑的、分析慢查询根因?Better Stack 帮不上忙。指标监控也比较基础,不支持自定义指标和复杂聚合。
谁该选它: 10 人以下小团队或独立开发者,主要就是查日志和盯网站可用性,不需要 APM。
真实场景算账:50 台主机 + 100GB 日志/天
光看定价页没意义,得拿具体场景算。假设一个中型团队:50 台主机、日均 100GB 日志、要 APM 和基础告警、5 个工程师需要访问。
| 工具 | 月估算费用 | 怎么算的 |
|---|---|---|
| Datadog | $8,000-12,000+ | 主机费 $36×50 + 日志 $0.10/GB×3000GB + APM 附加 |
| SigNoz Cloud | $1,500-2,500 | 纯按数据摄入量,不收主机费 |
| Grafana Cloud | $2,000-3,500 | 指标序列 + 日志量 + Trace 量分开计费 |
| New Relic | $3,500-5,500 | 用户费 $549×5 + 超出 100GB 免费额度的数据费 |
| Better Stack | $800-1,500 | 按日志量计费(没 APM,不完全可比) |
数字基于 2026 年各平台公开定价,实际会因用量和合同折扣浮动。大方向很清楚:Datadog 最贵,开源和按量计费的方案能省 60-80%。 Better Stack 便宜是因为缺 APM,补上这块还得另外找工具。
从 Datadog 迁移有多痛?
换工具最怕的不是功能差异,是迁移成本。简单评估一下:
→ SigNoz:中等。 应用已经用了 OpenTelemetry SDK 的话,改个 Exporter 地址就行。还在用 Datadog Agent 的,需要逐步换成 OTel Collector。仪表盘和告警得重建,SigNoz 有一些 Datadog 兼容的导入工具能帮上忙。
→ Grafana Cloud:中等偏高。 查询语言完全不同(PromQL、LogQL vs Datadog 的),仪表盘得从头搭。好在 Grafana 社区有大量现成模板可以直接导入。
→ New Relic:比较轻松。 New Relic 有专门的 Datadog 迁移指南和工具,Agent 安装配置流程也成熟。同类商业产品,功能对应关系清晰。
→ Better Stack:最轻松但有缺口。 日志迁移很简单,改个输出目标就完事。但 APM 和指标监控得另找方案,算是部分迁移。
决策框架:看你是什么团队
选 SigNoz → 有运维能力,日志量大(>50GB/天),对成本极度敏感,愿意花时间自建基础设施。规模化之后 ROI 非常可观。
选 Grafana Cloud → 已经在用 Prometheus + Grafana,想要托管服务减轻运维负担,同时保留最大灵活性。Grafana 的插件库和社区资源其他工具比不了。
选 New Relic → 大厂,要一站式方案,有预算,看重企业级支持和合规认证。全面性和成熟度在企业场景下确实有优势。
选 Better Stack → 小团队或独立开发者,就是查日志和盯网站可用性,不需要 APM。简洁和易用在这个场景下是加分项。
常见问题
Q1:Datadog 真有那么贵?能不能省着用?
功能确实强,但定价模型碰上容器化和微服务就容易失控。想继续用的话,可以限制自定义指标数量、优化日志采样率、谈年度合同折扣。但月账单已经过 $5,000 还在涨的话,认真评估替代品是值得的。
Q2:SigNoz 自托管要投入多少运维精力?
初始部署大概 1-2 天(Helm Chart 部署到 K8s),日常维护主要是 ClickHouse 的存储管理和版本升级。建议至少有一个熟悉 K8s 和 ClickHouse 的工程师。不想自己运维就选 SigNoz Cloud。
Q3:Grafana Cloud 免费层够不够用?
5 人以下、10 台服务器以内的小团队,免费层(10K 指标序列、50GB 日志/月)基本够。上了规模很快会超,好消息是付费价格也比 Datadog 便宜不少。
Q4:从 Datadog 迁移要多久?
看环境复杂度。20-30 台主机的典型环境,迁到 SigNoz 或 New Relic 大概 2-4 周(含测试和并行运行)。迁到 Grafana Cloud 可能 4-6 周,仪表盘和告警重建工作量更大。
Q5:能不能混着用几个工具?
完全可以,很多团队就这么干。比如 Grafana Cloud 管指标、Better Stack 管日志和 Uptime、SigNoz 管 Trace。OpenTelemetry 的好处就是数据能同时发到多个后端。不过混合方案管理复杂度更高,建议团队规模和需求明确之后再考虑。
写在最后
可观测性工具没有标准答案,关键是匹配你的团队规模、技术能力和预算。Datadog 功能依然最全,但定价模型确实让很多团队扛不住。
如果你在考虑替代品,建议先想清楚最核心的需求是什么——日志?APM?指标监控?然后从上面四个里挑一个最对口的,拿免费层或试用版跑两周。别急着全量迁移,先在一个非关键服务上试水,确认体验 OK 了再逐步推。
2026 年的可观测性市场竞争比以前激烈得多,对用户来说是好事——选择更多,谈判筹码也更多。



