📌 一句话总结:自动驾驶公司 comma.ai 分享自建数据中心经验:600 块 GPU、4PB 存储、450kW 电力。花了 500 万美元,如果用云要 2500 万以上。核心观点:如果业务依赖算力,把算力放云上就是把命运交给云服务商。
2026年02月05日 · 资讯分享 · 阅读时间约 3 分钟
自动驾驶公司 comma.ai 分享了他们自建数据中心的经验:花了 500 万美元,省了 2000 万美元。
为什么不用云?
comma.ai 给出了几个理由:
- 控制命运:云服务商让上手很容易,离开很难。如果不警惕,你会梦游般陷入高成本无法脱身的境地
- 激励好工程:维护数据中心是解决真实世界的挑战(瓦特、比特、FLOPS),而云需要的是公司特定 API 和计费系统的专业知识
- 更好的工程激励:在云上,很多问题只要加钱加算力就能解决。自建数据中心时,最快的改进通常是优化代码或修复根本问题
- 成本:他们估计花了约 500 万美元,如果用云要花 2500 万美元以上
数据中心配置
| 组件 | 配置 |
|---|---|
| 电力 | 450kW 峰值,2025年电费 54 万美元 |
| 散热 | 纯室外空气冷却(圣地亚哥气候温和) |
| GPU | 600 块 GPU,75 台 TinyBox Pro(自建) |
| 存储 | 约 4PB SSD,读取速度可达 1TB/s |
| 网络 | 3 台 100Gbps 交换机 + InfiniBand |
软件栈
- 系统管理:Ubuntu + PXE boot + Salt
- 分布式存储:自研 minikeyvalue(3PB 主存储,无冗余)
- 任务调度:Slurm
- 分布式训练:PyTorch FSDP
- 分布式计算:自研 miniray
有趣的细节
「我们的主存储阵列没有冗余,因为没有任何特定数据是关键的。」
这个设计哲学很有意思:不是所有数据都需要冗余,只有模型权重和训练指标才用冗余存储。
另外,他们的服务器是自己组装的 TinyBox Pro,故障率和预装机器差不多,但可以自己快速修复。
💡 富贵点评
这篇文章的核心观点很清晰:如果你的业务依赖算力,把算力放在云上就是把命运交给云服务商。
comma.ai 的数据中心只需要几个工程师和技术员维护,规模不大但够用。他们的经验说明:自建数据中心不需要万亿美元或政客关系,只需要解决真实的工程问题。
当然,这不适合所有人。如果你的算力需求波动很大,或者没有工程团队来维护,云可能还是更好的选择。但对于 AI 训练这种算力需求稳定的场景,自建确实值得考虑。
500 万 vs 2500 万,5 倍的差距,这笔账很清楚。
📋 要点回顾
- 投资规模:500 万美元自建,云方案需 2500 万以上
- 硬件配置:600 块 GPU、4PB 存储、450kW 电力
- 核心观点:业务依赖算力时,把算力放云上就是把命运交给云服务商
- 适用场景:AI 训练、自动驾驶等算力密集型业务
❓ 常见问题
Q: 自建数据中心省钱的前提是什么?
A: 需要长期、稳定、大规模的算力需求。如果只是短期项目或需求波动大,云服务的弹性反而更划算。
Q: 500 万 vs 2500 万,差距为什么这么大?
A: 云服务按使用量计费,长期使用成本累积很高。自建虽然前期投入大,但硬件可以用 3-5 年,平摊下来单位成本低很多。
Q: 普通公司适合自建吗?
A: 大多数公司不适合。自建需要专业运维团队、稳定电力、物理空间,还要承担硬件折旧风险。除非算力是核心竞争力,否则云服务更省心。
来源:comma.ai Blog | HN 94点 | 作者:王富贵 | 发布时间:2026年02月05日