o3和o4-mini双模登场!首次加入图片推理、工具调用

在今天凌晨的线上发布会上,OpenAI 一次推出两款全新模型 o3 与 o4‑mini ,并宣布它们立即向 ChatGPT Plus、Pro 与 Team 订阅者开放,引入了可直接“用图片思考”的多模态推理、完整调用 ChatGPT 浏览器与 Python 等工具链,以及本地开源编码代理 Codex CLI。这场 40 分钟的直播,被外界视作 OpenAI 从“聊天助手”迈向“通用智能代理”生态的关键一步。

发布会核心亮点

双模登场:o3 被官方称为“迄今最强推理模型”,在数学、科学与编码任务上相较 o1 正确率提高 20% 以上;而 o4‑mini 在速度与成本之间实现平衡,面向开发者的轻量级场景。

o3和o4-mini双模登场!首次加入图片推理、工具调用

上图展示 o3 模型和其前任 o1 模型在准确率和成本上的对比。

o3和o4-mini双模登场!首次加入图片推理、工具调用

上图展示 o4-mini 模型和其前任 o3-mini 模型在准确率和成本上的对比。

多模态推理:两款模型首次把视觉信息直接注入“思考链”,可对草图、幻灯片或白板照片进行缩放、旋转并参与推理。

全工具调用:o3 与 o4‑mini 能自主调用 ChatGPT 的网页浏览、Python 执行、文件解析与图像生成等全部工具,官方称之为迈向“智能代理”的里程碑。

新模型性能

o3 —— “深思熟虑”的旗舰

  • 在 Codeforces、SWE‑bench 等基准创下新 SOTA,复杂编程任务得分 69.1%。
  • 外部评测显示,困难现实任务重大错误率较 o1 降低 20% 以上。
  • 支持把模糊、倒置的图像纳入推理并实时操作(旋转、缩放)。

o4‑mini —— 速度/成本之选

  • 在 AIME 2025 数学赛配合 Python 解释器取得 99.5% 得分。
  • 输入费用 /百万、输出4.40/百万 token,与 o3‑mini 相同但性能显著提升。
  • 另有 o4‑mini‑high 版本,延长推理时间以换取更高可靠性。

o4‑mini 主打“高性价比”,官方称其在多数推理任务上接近 o3 表现,但成本显著下降,方便第三方应用接入。

 

Codex CLI

Codex CLI:发布会同步推出本地命令行代理,可在终端直接调用 o3 / o4‑mini 执行代码、调试与文件操控,定位为“轻量级开源编码助手”。

上图展示 Codex CLI 工具实际运行效果。

目前该项目已在 Github 上开源。

未来路线:智能代理

代理化愿景:官方将 o3 / o4‑mini 视作“可自行规划、执行多步骤任务的第一代模型”,下一阶段重点是让模型稳健调用外部 API 与私有数据源。

结语

此次发布会不仅带来了性能更强、价格更灵活的两款模型,也首次展示了 OpenAI 对“AI 代理”时代的完整蓝图:多模态推理 + 工具链调用 + 本地执行。随着 GPT‑5 临近,OpenAI 正在把自家生态从聊天助手升级为可自主完成复杂工作的数字同事,行业竞赛由此再次提速。

标签