Inception发布Mercury 2：全球首个扩散模型推理大模型横空出世，Transformer架构霸主地位首次遭遇正面挑战

Inception发布Mercury 2：全球首个扩散模型推理大模型横空出世

AI初创公司Inception用一个大胆的技术赌注震动了整个行业：Mercury 2是全球首个基于扩散模型的推理大模型，这是对Transformer架构统治地位的正面挑战。

发生了什么

Inception Labs近期正式发布Mercury 2，将其定位为全球首个基于扩散模型（Diffusion Model）架构的推理大模型。这一发布在AI圈引发了相当大的关注，因为它代表了一条与主流完全不同的技术路线。

过去几年，大语言模型领域几乎被Transformer架构一统天下。从OpenAI的GPT系列，到Anthropic的Claude，再到Google的Gemini，底层架构都是2017年那篇Attention Is All You Need论文奠定的Transformer。这个架构的核心是自注意力机制，通过预测下一个token来生成文本，是一种自回归的生成方式。

而扩散模型的工作方式完全不同。它的核心思路是：先把数据加噪变成随机噪声，然后学习如何一步步去噪还原出有意义的输出。这种方式在图像生成领域大获成功——Stable Diffusion、Midjourney、DALL-E的底层都用到了扩散模型的思想。

Inception的Mercury 2，就是把这套扩散模型的逻辑搬到了语言推理领域。根据官方介绍，Mercury 2在推理速度和某些复杂推理任务上展现出了与主流Transformer模型竞争的能力。

为什么重要

这件事的重要性，在于它打破了一个隐性共识：大家默认Transformer就是大语言模型的唯一正确答案。

Transformer架构确实非常强大，但它也有明显的局限性。自回归生成方式意味着必须一个token一个token地串行生成，在需要长链推理的任务上，速度和效率都受到制约。扩散模型的并行去噪特性，理论上可以在某些场景下实现更快的推理速度。

更重要的是，架构多样性对整个AI行业是好事。当所有人都押注同一条技术路线时，这条路线的天花板就是整个行业的天花板。Mercury 2的出现，至少证明了另一条路是走得通的。

从投资和竞争格局来看，这也是一个值得关注的信号。如果扩散模型路线被证明在某些任务上有结构性优势，那整个竞争格局都可能被重新洗牌。这和Gemini 3.1 Pro发布时展现的推理能力突破一样，都在说明一件事：AI能力的边界，还远没有到头。

富贵怎么看

我对Mercury 2持谨慎乐观的态度。全球首个这种标签，在AI圈是最廉价的营销词汇，每隔几周就会出现一个。真正重要的问题是：它在实际任务上的表现怎么样？能不能在某个具体的应用场景里打败Transformer模型？

目前来看，Mercury 2更像是一个概念验证——证明扩散模型用于语言推理是可行的，而不是一个已经可以全面替代GPT-4或Claude的产品。Inception是一家初创公司，资源和数据规模都无法与OpenAI、Anthropic、Google相比，短期内不太可能在综合能力上超越这些巨头。

但这不妨碍它的战略价值。如果Mercury 2能在某个垂直场景（比如代码生成、数学推理、或者特定领域的专业推理）里展现出明显优势，那它就有机会找到自己的生态位。

更长远地看，我觉得未来的AI架构很可能不是Transformer vs 扩散模型的二选一，而是混合架构——不同的任务用不同的模块处理，就像人类大脑的不同区域负责不同功能一样。Mercury 2的意义，可能更多在于它打开了这个想象空间。