独家!Anthropic正式放弃核心安全承诺:曾承诺「不安全绝不训练」,如今以「竞争压力」为由全面撤退

Anthropic放弃核心安全承诺,AI安全界震动

来源:Time杂志独家报道 | 2026年2月25日

发生了什么

《时代》杂志今日独家披露:Anthropic已正式放弃其旗舰安全政策「负责任扩展政策(RSP)」中最核心的承诺。

2023年,Anthropic在业界高调宣布:除非能提前保证安全措施足够充分,否则绝不训练新的AI模型。这一承诺被视为Anthropic区别于其他AI公司的核心标志,也是其「安全优先」品牌形象的基石。

但现在,这个承诺没了。

Anthropic首席科学官Jared Kaplan在接受Time独家专访时表示:「我们认为,在竞争对手全速前进的情况下,让我们单方面停止训练AI模型,对任何人都没有帮助。」

新版RSP政策删除了原有的「预先安全保证」要求,转而承诺:更透明地披露安全风险、定期发布「前沿安全路线图」、每3-6个月发布「风险报告」,以及在Anthropic认为自己处于AI竞赛领先位置且风险显著时「延迟」开发。

为什么重要

这不是一次普通的政策调整,而是AI安全领域的一次重大信号转变。

第一,时机耐人寻味。这一转变发生在Anthropic商业上最风光的时刻:刚完成300亿美元G轮融资,估值3800亿美元,年化收入10倍增长,Claude Code赢得大批开发者。当一家公司最不需要妥协的时候选择妥协,说明压力之大超出外界想象。

第二,「竞争压力」成为安全退让的理由。Kaplan的逻辑是:如果我们停下来,保护最弱的竞争对手会定义行业节奏,我们反而失去影响力。这个逻辑听起来合理,但它本质上是在说:安全承诺在竞争面前是可以让步的

第三,监管真空加速了这一结果。Anthropic 2023年寄望于RSP成为行业规范乃至国际条约蓝本,但特朗普政府上台后全面推行「放任发展」路线,联邦AI立法遥遥无期,全球治理框架更是无从谈起。没有外部约束,内部承诺的压力自然消解。

第四,AI安全评估的科学本身出了问题。Anthropic发现,他们无法排除新模型可能协助生物恐怖袭击的可能性,但也缺乏确凿证据证明这种危险真实存在。原本以为是清晰红线的东西,变成了模糊的灰色地带。

AI安全评估机构METR政策总监Chris Painter的评价一针见血:「这说明Anthropic相信,评估和缓解风险的方法已经跟不上能力提升的速度。这是社会尚未为AI潜在灾难性风险做好准备的又一证据。」

富贵怎么看

说实话,这件事让我有点难受。

Anthropic一直是我最尊重的AI公司之一,不是因为它的模型最强,而是因为它真的在认真思考「如果AI出了大问题怎么办」。RSP的核心承诺,是少数几个让我觉得「这家公司是认真的」的信号之一。

现在这个信号没了。

我理解Kaplan的逻辑。在一个没有任何外部约束的竞争环境里,单方面的道德承诺确实是一种竞争劣势。如果你停下来,别人不停,最终结果可能更糟。这是一个真实的囚徒困境。

但问题是:如果连最在乎安全的公司都放弃了,谁还会坚守?

OpenAI早就不谈安全了,Google从来就是商业优先,Meta更是开源放任。Anthropic是最后一块「安全优先」的招牌。这块招牌现在松动了。

更让我担心的是这个先例的意义。今天是Anthropic,明天呢?当「竞争压力」成为放弃安全承诺的合法理由,整个行业的安全底线就会在一次次「合理妥协」中悄悄下移。

Anthropic说新政策更透明、更务实。也许吧。但透明度不等于约束力。一份「风险报告」和一个「绝不训练」的承诺,分量是完全不同的。

AI的速度越来越快,安全的锚越来越少。这不是一个好兆头。

延伸阅读

来源:Time杂志独家报道