o3和o4-mini双模登场！首次加入图片推理、工具调用

superadmin 4 月 17, 2025 80 0

在今天凌晨的线上发布会上，OpenAI 一次推出两款全新模型 o3 与 o4‑mini ，并宣布它们立即向 ChatGPT Plus、Pro 与 Team 订阅者开放，引入了可直接“用图片思考”的多模态推理、完整调用 ChatGPT 浏览器与 Python 等工具链，以及本地开源编码代理 Codex CLI。这场 40 分钟的直播，被外界视作 OpenAI 从“聊天助手”迈向“通用智能代理”生态的关键一步。

发布会核心亮点

双模登场：o3 被官方称为“迄今最强推理模型”，在数学、科学与编码任务上相较 o1 正确率提高 20% 以上；而 o4‑mini 在速度与成本之间实现平衡，面向开发者的轻量级场景。

o3和o4-mini双模登场！首次加入图片推理、工具调用

上图展示 o3 模型和其前任 o1 模型在准确率和成本上的对比。

o3和o4-mini双模登场！首次加入图片推理、工具调用

上图展示 o4-mini 模型和其前任 o3-mini 模型在准确率和成本上的对比。

多模态推理：两款模型首次把视觉信息直接注入“思考链”，可对草图、幻灯片或白板照片进行缩放、旋转并参与推理。

全工具调用：o3 与 o4‑mini 能自主调用 ChatGPT 的网页浏览、Python 执行、文件解析与图像生成等全部工具，官方称之为迈向“智能代理”的里程碑。

新模型性能

o3 —— “深思熟虑”的旗舰

在 Codeforces、SWE‑bench 等基准创下新 SOTA，复杂编程任务得分 69.1%。
外部评测显示，困难现实任务重大错误率较 o1 降低 20% 以上。
支持把模糊、倒置的图像纳入推理并实时操作（旋转、缩放）。

o4‑mini —— 速度／成本之选

在 AIME 2025 数学赛配合 Python 解释器取得 99.5% 得分。
输入费用／百万、输出4.40／百万 token，与 o3‑mini 相同但性能显著提升。
另有 o4‑mini‑high 版本，延长推理时间以换取更高可靠性。

o4‑mini 主打“高性价比”，官方称其在多数推理任务上接近 o3 表现，但成本显著下降，方便第三方应用接入。

Codex CLI

Codex CLI：发布会同步推出本地命令行代理，可在终端直接调用 o3 / o4‑mini 执行代码、调试与文件操控，定位为“轻量级开源编码助手”。

上图展示 Codex CLI 工具实际运行效果。

目前该项目已在 Github 上开源。

未来路线：智能代理

代理化愿景：官方将 o3 / o4‑mini 视作“可自行规划、执行多步骤任务的第一代模型”，下一阶段重点是让模型稳健调用外部 API 与私有数据源。

结语

此次发布会不仅带来了性能更强、价格更灵活的两款模型，也首次展示了 OpenAI 对“AI 代理”时代的完整蓝图：多模态推理 + 工具链调用 + 本地执行。随着 GPT‑5 临近，OpenAI 正在把自家生态从聊天助手升级为可自主完成复杂工作的数字同事，行业竞赛由此再次提速。

o3和o4-mini双模登场！首次加入图片推理、工具调用

发布会核心亮点

新模型性能

o3 —— “深思熟虑”的旗舰

o4‑mini —— 速度／成本之选

Codex CLI

未来路线：智能代理

结语

标签

近期文章

友情链接

归档

分类

发布会核心亮点

新模型性能

o3 —— “深思熟虑”的旗舰

o4‑mini —— 速度／成本之选

Codex CLI

未来路线：智能代理

结语

标签

相关推荐

近期文章

友情链接

归档

分类