MiniCPM-o 4.5 技术报告发布：全双工全模态 API 开放，RTX5070即可实时运行

摘要

面壁智能联合 OpenBMB、清华大学 THUNLP 与 THUMAI 实验室正式发布 MiniCPM-o 4.5 技术报告，首次系统公开 Omni-Flow 流式全模态框架。模型仅 9B 参数，拥有端到端全双工能力，支持实时音视频交互与主动响应，最低仅需 12GB 显存的 RTX 5070 即可流畅运行。同步开放在线 Demo、全双工全模态 API 及 Windows/macOS 一键安装包，Hugging Face 下载量已突破 25 万次，端侧 AI 助手迈入实用新阶段。

无需联网，仅靠一张消费级显卡，就能在个人电脑上拥有一个能边看、边听、边说、还能主动提醒的类人 AI 助手——这已不再是设想。面壁智能联合 OpenBMB 开源社区、清华大学 THUNLP 实验室和 THUMAI 实验室正式发布 MiniCPM-o 4.5 技术报告，首次系统的公开其核心技术 Omni-Flow 流式全模态框架，并同步开放在线体验 Demo、全模态全双工 API 以及端侧安装包 Comni，让全双工全模态大模型的本地部署真正落进了普通开发者的日常环境。

全双工全模态模型开放：一键体验与 API

MiniCPM-o 4.5 是一款业界首个端到端全双工全模态大模型，总参数量仅有 9B。自 2026 年 2 月模型首次亮相以来，其在 Hugging Face 上的下载量已快速突破 25 万次。此次伴随技术报告发布的，是一整套从体验到开发再到本地部署的完整工具链。

在线 Demo 直接展示了传统轮次交互、语音双工交互和视频双工交互三大类应用原型，并且完整开放模型支持的全部配置项，包括 prompt 和参考音频设置。该 Demo 同时适配手机和电脑端，提供了排队、录制、保存、分享、回看等功能，无需注册即可体验。与此同时，全模态全双工 API 也正式免费开放，开发者可直接调用端点进行实时交互开发，其最大的特点在于全双工模式下无需依赖传统 VAD（语音活动检测）机制来控制对话轮次，极大简化了应用构建流程。

为了进一步降低本地部署门槛，项目还推出了桌面软件 Comni。这是一个集成了模型下载、环境安装和 Demo 运行能力的一键安装包，提供 Windows 和 macOS 版本。在模型侧，MiniCPM-o 4.5 已基于 llama.cpp 完成量化和推理性能优化，实测最低 12GB 显存的 RTX 5070 即可流畅运行全双工模式，显存更充裕的 RTX 5080、RTX 5090 以及苹果 M1-M5 Max/M5 Pro 等芯片也获得完整支持。这意味着，以往只存在于云端的大型多模态交互，如今可以被压缩进一台普通个人设备。

Omni-Flow：让 AI 拥有连续感知与并行交互能力

传统大模型与人的交互一直是“半双工”的——像对讲机一样，你说完它才处理，它说的时候听不见新指令。这种时空割裂让实时多模态体验大打折扣。而 MiniCPM-o 4.5 在全球范围内率先实现了“全双工全模态”，其背后的关键便是面壁智能与清华大学共同研发的 Omni-Flow 流式全模态框架。

Omni-Flow 的核心理念是创造一个共享的“时间轴”，将视觉、音频、语言等所有信息流都对齐到毫秒级时间片上。模型在每个极小的时间片内，都会完成一次“感知-思考-响应”的循环。也就是说，它不再是被动等待用户输入结束，而是以极高的频率持续刷新自己的环境认知，并自主决定何时介入——例如开口说话或发出提醒。这种机制从底层赋予了模型持续感知和即时反应的能力，原生支持打断、插话等高级交互行为，彻底抛弃了对外部 VAD 模块的依赖。

该框架下，视觉输入流、音频输入流以及模型的文本和语音输出流被精确切片和对齐，形成了一个连续的过程流。与以往将交互视为孤立回合的模式不同，Omni-Flow 让 AI 真正从一个被动工具变为主动助手。例如，模型可以在观看视频流的同时，实时回答有关画面内容的问题，甚至在用户说话的过程中随时被打断并调整回答方向，而所有这些都无需等待上一轮交互完全结束。

9B 端到端架构揭秘：小身板如何硬刚大模型

为实现 Omni-Flow 的高效运转，MiniCPM-o 4.5 采用了一套精干的全模态端到端架构。视觉编码器采用 0.4B 参数的 SigLIP-ViT，负责图像与视频理解；音频编码器为 0.3B 参数的 Whisper-Medium，专注于声音拾取；LLM 基座则选择了 8B 参数的 Qwen3-8B，承担核心的语义理解和推理任务。此外，还配备了一个约 0.3B 参数的轻量级 Llama 架构语音 Token 解码器，专门负责将 LLM 生成的文本转化为语音单元，最后由声码器合成为自然波形。

这一设计让 LLM 基座只产生文本 token，而把专业的声学合成外包给小型模块，既保护了基座模型的语言和推理能力，又大幅降低了语音任务的额外算力开销。为了进一步解决流式语音的延迟问题，团队提出了 TAIL（Time-Aligned Interleaving）方案，使得每个语音块的生成都紧紧跟随其对应的文本块，同时通过轻量级的“预读”机制保证跨词发音的连贯性。最终，TAIL 在保持音频流畅自然的基础上，将语音输出与交互发生的延迟降至最低，这对于需要即时打断的全双工场景至关重要。

在评测维度上，MiniCPM-o 4.5 展现出与 SOTA 大模型角力的实力。推理效率方面，其 INT4 量化版仅需 11GB 显存即可运行，几乎是同量级 Qwen3-Omni 量化版的一半。解码速度达到 212 tokens/s，比 Qwen3 快出 40% 以上，响应延迟更低。视觉能力上，在 OpenCompass、MMBench 等多个基准中，9B 的 MiniCPM-o 4.5 与 Gemini 2.5 Flash 表现相当。全模态与全双工交互方面，在需要联合音视频理解的基准上，MiniCPM-o 4.5 全面超越 Gemini 2.5 Flash 和 Qwen3-Omni；尤其是在全双工视频理解基准 LiveSports-3K-CC 上，其胜率达到 54.4%，大幅领先专用流式视频模型。语音生成质量上，无论是中文还是英文，字符/单词错误率更低，情感表现力优于 Qwen3-Omni 和业界领先的 CosyVoice2。这些数据表明，端侧小参数模型已可在特定维度上比肩甚至超越云端大模型。

从消费级显卡到普惠应用：本地部署与场景展望

MiniCPM-o 4.5 坚持开源并支持本地部署，其 Demo 的全栈代码已在 GitHub 仓库公开，这也是首批可本地部署的全双工全模态交互演示项目之一。Linux 用户可直接克隆代码仓部署完整服务，Windows 和 macOS 用户则可通过 Comni 一键安装。全前端的开源不仅意味着隐私安全——所有数据不出本地，全天候陪伴式 AI 所接触的敏感信息得到根本性保护——也代表着断网环境下的可靠性，即便在隧道或野外，助手也不会“掉线”。对于开发者而言，这是一个现成的全双工多模态应用构建起点，无论是智能座舱、无障碍辅助还是具身智能，都可以基于此快速起步。

全双工全模态本身已催生一系列新应用原型。它可作为主动式伴侣，在烹饪、修理或运动时提供实时指导和提醒；能成为视障人士的“眼睛”，持续观察环境并主动播报关键信息，如绿灯亮起、水杯将满；在智能座舱中，持续监控路况与驾驶员状态，主动提示可用车位并引导泊车；还能作为机器人的大脑，持续感知动态环境并自主决策交互时机。这些场景的共同需求是 AI 作为“沉默的观察者”和“及时的提醒者”融入动态生活流，传统轮次对话模型根本无力胜任。而 MiniCPM-o 4.5 的原生全双工，不仅能感知环境噪音、音乐等非语音声音，其画面变化跟进也更快，且在 AI 说话时可被实时引导改变内容，这些能力都源于无 VAD 的流式架构。

当然，团队也坦言模型目前在长时间交互的稳定性和主动行为的丰富性上仍有提升空间。技术报告发布只是一个开始，面壁智能和合作方将持续开放协作，推动多模态智能交互的演进。这一次，一个能跑在消费级显卡上的全双工全模态助手，正把 AI 从云端工具俯身成我们身边最私密、最可靠的陪伴者。

MiniCPM-o 4.5 技术报告发布：全双工全模态 API 开放，RTX5070即可实时运行

全双工全模态模型开放：一键体验与 API

Omni-Flow：让 AI 拥有连续感知与并行交互能力

9B 端到端架构揭秘：小身板如何硬刚大模型

从消费级显卡到普惠应用：本地部署与场景展望

相关文章

AI教父Hinton再发警告：安全研究投入仅1%，4.8万亿美元市场狂奔无方向盘