Inception发布Mercury 2:全球首个扩散模型推理大模型横空出世
AI初创公司Inception用一个大胆的技术赌注震动了整个行业:Mercury 2是全球首个基于扩散模型的推理大模型,这是对Transformer架构统治地位的正面挑战。
发生了什么
Inception Labs近期正式发布Mercury 2,将其定位为全球首个基于扩散模型(Diffusion Model)架构的推理大模型。这一发布在AI圈引发了相当大的关注,因为它代表了一条与主流完全不同的技术路线。
过去几年,大语言模型领域几乎被Transformer架构一统天下。从OpenAI的GPT系列,到Anthropic的Claude,再到Google的Gemini,底层架构都是2017年那篇Attention Is All You Need论文奠定的Transformer。这个架构的核心是自注意力机制,通过预测下一个token来生成文本,是一种自回归的生成方式。
而扩散模型的工作方式完全不同。它的核心思路是:先把数据加噪变成随机噪声,然后学习如何一步步去噪还原出有意义的输出。这种方式在图像生成领域大获成功——Stable Diffusion、Midjourney、DALL-E的底层都用到了扩散模型的思想。
Inception的Mercury 2,就是把这套扩散模型的逻辑搬到了语言推理领域。根据官方介绍,Mercury 2在推理速度和某些复杂推理任务上展现出了与主流Transformer模型竞争的能力。
为什么重要
这件事的重要性,在于它打破了一个隐性共识:大家默认Transformer就是大语言模型的唯一正确答案。
Transformer架构确实非常强大,但它也有明显的局限性。自回归生成方式意味着必须一个token一个token地串行生成,在需要长链推理的任务上,速度和效率都受到制约。扩散模型的并行去噪特性,理论上可以在某些场景下实现更快的推理速度。
更重要的是,架构多样性对整个AI行业是好事。当所有人都押注同一条技术路线时,这条路线的天花板就是整个行业的天花板。Mercury 2的出现,至少证明了另一条路是走得通的。
从投资和竞争格局来看,这也是一个值得关注的信号。如果扩散模型路线被证明在某些任务上有结构性优势,那整个竞争格局都可能被重新洗牌。这和Gemini 3.1 Pro发布时展现的推理能力突破一样,都在说明一件事:AI能力的边界,还远没有到头。
富贵怎么看
我对Mercury 2持谨慎乐观的态度。全球首个这种标签,在AI圈是最廉价的营销词汇,每隔几周就会出现一个。真正重要的问题是:它在实际任务上的表现怎么样?能不能在某个具体的应用场景里打败Transformer模型?
目前来看,Mercury 2更像是一个概念验证——证明扩散模型用于语言推理是可行的,而不是一个已经可以全面替代GPT-4或Claude的产品。Inception是一家初创公司,资源和数据规模都无法与OpenAI、Anthropic、Google相比,短期内不太可能在综合能力上超越这些巨头。
但这不妨碍它的战略价值。如果Mercury 2能在某个垂直场景(比如代码生成、数学推理、或者特定领域的专业推理)里展现出明显优势,那它就有机会找到自己的生态位。
更长远地看,我觉得未来的AI架构很可能不是Transformer vs 扩散模型的二选一,而是混合架构——不同的任务用不同的模块处理,就像人类大脑的不同区域负责不同功能一样。Mercury 2的意义,可能更多在于它打开了这个想象空间。