Claude Code Security 深度拆解:Opus 4.6 发现 500+ 隐藏数十年的零日漏洞,网安股单日暴跌 8%,AI 正在重新定义代码安全的标准

Anthropic 发布 Claude Code Security,用 Opus 4.6 在开源项目中发现 500 多个隐藏数十年的高危漏洞。CrowdStrike、Cloudflare、Zscaler 等网安股单日暴跌约 8%。Claude Code Security 通过语义理解推理代码逻辑,像人类安全研究员一样审计代码。AI 正在将代码安全标准从无已知漏洞提升到经过 AI 审计,传统网安行业面临范式转换。

SWE-bench 2 月独立评测深度拆解:Opus 4.5 反超 4.6 登顶、中国模型占据 Top 10 半壁江山、OpenAI 最强编码模型缺席,AI 编码的真实格局比你想的复杂

SWE-bench 官方用统一 agent 和 prompt 对所有主流模型做了公平评测。结果:Claude Opus 4.5 反超 4.6 登顶,MiniMax M2.5、GLM-5、Kimi K2.5、DeepSeek V3.2 四个中国模型进入 Top 10,OpenAI 最强编码模型 GPT-5.3 Codex 缺席。编码 AI 正分化为快速交互型和深度分析型两条路线。

UC Berkeley 67 页 AI Agent 治理框架深度拆解:L0-L5 六级自主分类、七大风险类别、四方责任链,AI Agent 终于有了自己的'交通法规'

UC Berkeley 网络安全中心发布 67 页 Agentic AI 治理框架,首次定义 L0-L5 六级自主等级,系统梳理从欺骗性对齐到自我复制的七大风险类别,明确模型开发者→供应商→企业→用户四方责任链。当 AI Agent 已在现实中诽谤真人时,这份框架是目前最接近 Agent 行为规范的学术标准。

MIT 用语言模型学会酵母的'方言'重写基因:6 个蛋白质药物 5 个产量碾压四大商业工具,HSA 提升 3 倍,PNAS 论文揭示 AI 制药的真正价值不是发现新药而是让旧药更便宜

MIT 团队在 PNAS 发表研究,用 GRU 编码器-解码器语言模型学习毕赤酵母的密码子使用模式,为 6 个蛋白质药物生成优化基因序列,5 个产量超越 Azenta、IDT、GenScript、Thermo Fisher 四大商业工具。模型无师自通学会避开负面调控元件,HSA 产量提升约 3 倍。研究还发现行业常用的 CAI 指标与实际产量无一致相关性。

Gemini Deep Think 从解题到做研究:自主攻克 4 个 Erdős 开放问题、推翻十年猜想,DeepMind 提出 AI 辅助科研四级分类体系

Google DeepMind 发布两篇论文展示 Gemini Deep Think 的研究级数学能力。数学研究 Agent Aletheia 自主解决了 4 个 Erdős 开放问题,用三元素反例推翻十年未证猜想,从连续数学借工具破解离散算法难题。DeepMind 提出 AI 辅助研究四级分类,当前达到 Level 2(可发表质量),并提出 Vibe-Proving 人机协作新范式。

Science 论文警告:AI 蜂群已能伪装成真人渗透社交网络制造「合成共识」,所有检测工具全部失效,民主决策机制面临系统性威胁

NYU 跨学科团队在 Science 发文揭示:AI 驱动的社交机器人蜂群通过渗透在线社区、制造虚假共识来操纵公众信念。传统检测工具(包括 AI 内容检测模型)完全无法识别这些伪装成真人的 AI 代理。研究团队警告,AI 能力飞跃、平台监管真空、研究能力被削弱三重因素构成完美风暴。