Anthropic收购Vercept:给Claude装上眼睛
AI智能体的下一个战场,是视觉。
2026年2月27日,Anthropic正式宣布收购计算机视觉初创公司Vercept,将其核心的高精度UI元素识别技术整合进Claude智能体生态。这是Anthropic在智能体能力建设上的又一次关键布局。
发生了什么
Vercept是一家专注于屏幕UI理解的计算机视觉公司,核心技术是精准识别屏幕上的各类界面元素——按钮、输入框、下拉菜单、图标、表单等。与传统OCR不同,Vercept的技术不只是读文字,而是真正理解界面的结构和语义:这个按钮是用来提交的,那个输入框是用来搜索的,这个弹窗需要先关闭才能继续操作。
据报道,Vercept的UI识别精度大幅领先OpenAI的同类方案,在复杂界面、动态加载页面和多语言界面上的表现尤为突出。收购完成后,Vercept团队将并入Anthropic,技术将直接整合进Claude的智能体能力层。
为什么重要
要理解这次收购的战略意义,需要先理解AI智能体的核心瓶颈:大多数软件没有API,只有界面。你让AI帮你在某个网站上填表、在某个软件里操作——如果这些软件没有开放API,AI就只能像人一样看着屏幕操作。
这就是为什么计算机使用(Computer Use)能力如此关键。Anthropic去年率先推出了Claude的Computer Use功能,允许Claude通过截图理解屏幕内容并模拟鼠标键盘操作。但早期版本的最大痛点就是UI识别精度不够——按钮点偏了、输入框没找到,导致任务失败率偏高。
Vercept的加入直接补上了这块短板。高精度的UI识别意味着Claude能更准确地看懂任何界面,操作成功率大幅提升。这次收购与Anthropic近期的一系列动作形成了清晰的战略闭环:Claude Code Remote Control加上Vercept的高精度UI视觉识别,再加上MCP协议的标准化工具调用,三者合一,Anthropic正在把Claude打造成能写代码、能看界面、能调工具的全栈数字员工。
富贵怎么看
这次收购让我想起一个细节:人类之所以能操作任何软件,不是因为我们懂每个软件的API,而是因为我们有眼睛,能看懂界面。视觉是人类操作数字世界的底层能力。Anthropic现在给Claude装上了这双眼睛。
从商业角度看,这个方向非常聪明。全球有数以亿计的企业软件、内部系统、遗留应用,它们永远不会开放API,但它们都有界面。能看懂界面的AI智能体,理论上可以操作任何软件,这个市场规模远比有API的软件自动化大得多。
OpenAI在这个方向上也有布局(Operator功能),但Vercept的精度优势明显。AI智能体的视觉能力军备竞赛,正式开打。对于企业来说,这意味着:你的内部系统,很快就会有一个AI同事能直接操作它,不需要写任何集成代码。这是效率革命,也是一次组织架构的地震。