OpenAI发布最强推理模型o1:可解答83%的奥数问题|钛媒体AGI

### OpenAI 发布全新模型技术产品 o1 概述

北京时间 9 月 13 日凌晨,美国 OpenAI 公司发布了全新的模型技术产品 o1,包括两种版本:o1-preview 和 o1-mini。o1-preview 具备高级推理能力,尤其在数学、编程和科学问题的解决能力上有了显著提升,其性能接近理化生博士水平。而 o1-mini 则是一款更小巧、专门为代码生成优化的模型。

这一新模型被广泛认作是此前传言中具有强大推理能力的“Strawberry”项目,也有人推测 o1 是 “Orion” 大模型的简称。OpenAI 表示,这个新模型在复杂的推理任务上代表了 AI 能力的重大飞跃,值得赋予一个全新的名字,以区别于 “GPT-4” 系列。这标志着 AI 时代迎来了重大的新起点——一个能够进行通用复杂推理的大模型时代的到来。

#### 新模型的特点与限制

需要指出的是,o1 目前的聊天体验相对基础。与 GPT-4o 不同,o1 尚无法进行网页浏览或文件分析。即使具备图像分析能力,该功能目前仍处于关闭状态,等待进一步测试。此外,o1 还设有消息使用限制:o1-preview 每周限额 30 条,o1-mini 每周 50 条。

从即日起,o1-preview 和 o1-mini 两个版本已在 ChatGPT Plus/Team 和 API 接口渠道上线,企业和教育用户将于下周初获得优先访问权限。OpenAI CEO Sam Altman 表示:“这是我们迄今为止最强大、最一致的模型系列 o1,也是我们最好的推理模型。尽管 o1 仍存在缺陷与局限,但使用体验令人印象深刻。”

#### 推理能力的提升

从具体应用来看,OpenAI o1 可以解决比之前 GPT 模型更复杂的科学、编码和数学问题。研究负责人 Jerry Tworek 透露,o1 的训练方式与以往产品有本质区别,之前的 GPT 模型侧重于模仿训练数据中的模式,而 o1 则旨在让模型独立解决问题。在强化学习过程中,通过奖励与惩罚机制来“教育” AI 使用“思维链”来处理问题,类似于人类的解题思路。

o1 的上线意味着 ChatGPT 在回答问题前能够进行更深入的思考,而不再是立即给出答案。这一过程类似于人类思维的系统 1(快速、直觉)与系统 2(深思熟虑)。这样的进化使得 ChatGPT 能够解决以往无法解决的问题。

o1 模型的推理方式允许 AI 在回答之前花更多时间思考,像人类处理问题的过程一样。通过文字展示 AI 思考的过程,用户可以看到 AI 在思考时的各种反应,如:“我在思考这个做法是否可行”或“时间不够了,得尽快给出答案”。OpenAI 确认,这里展示的并非原始思维链,而是“模型生成的摘要”,同时公司也坦诚其中包含了保持“竞争优势”的考量。

根据测试,在国际数学奥林匹克(IMO)资格考试中,GPT-4o 仅正确解答了 13% 的问题,而 o1 模型正确解答了 83% 的问题。在编程能力比赛 Codeforces 中,o1 模型达到了 89% 的成绩,而 GPT-4o 仅有 11% 的表现。

OpenAI 发现,随着更多的强化学习和更多的思考时间,o1 的性能持续提升。这种方法的扩展与大模型预训练的限制有很大不同,OpenAI 仍在继续该领域的研究。

OpenAI 的技术文件显示,o1 模型在某些基准测试中超越了人类专家的表现,达到理科博士水平,成为首个在该基准测试中实现这一成就的模型。预计下一个更新版本将在物理、化学和生物学的挑战性基准测试中,与博士生水平相媲美。

#### o1-mini 模型的推出

除了 o1-preview,OpenAI 同时推出了 o1-mini 模型。这款模型速度更快、价格更实惠,相较于 preview 版本定价降低了 80%,适合需要推理但不需要广泛世界知识的场景。

虽然新的 o1 尚未具备全面的问题解决能力,但其显著提升的推理能力使其在科学、编程和数学等专业领域具备更大的应用潜力。此外,AI Agent 相关技术的下限和上限也因其性能提升而得以拉高,有望大幅提升科学研究和生产效率。

#### 投资与未来展望

NVIDIA 首席科学家 Jim Fan 表示,新的 o1 模型需要更高的计算能力和数据支持,并具备数据飞轮效应,正确的答案和思考过程可以用作训练数据,从而持续改进推理能力,类似 AlphaGo 的价值网络。

天风国际表示,OpenAI o1 系列模型大幅增强了推理能力,并宣布了新的 Scaling 范式:通过强化学习解锁推理时间的计算能力。

与此同时,彭博社报道称,OpenAI 正在洽谈以 1500 亿美元的估值进行新一轮融资,预计从投资者那里筹集 65 亿美元,投资方包括苹果、NVIDIA、微软等。OpenAI CFO Sarah Friar 在内部备忘录中提到,新的融资将支持公司对计算能力和其他运营费用的需求,并提到公司的目标是允许员工在未来的收购要约中出售部分股份。

### 见解

OpenAI 最新发布的 o1 模型系列以强大的推理能力显著提升了在科学、编程与数学等专业领域的应用潜力,标志着 AI 技术新的里程碑。尽管现阶段仍存在一些局限,但随着技术的不断迭代与优化,其在广泛领域的前景将值得期待。同时,未来可能的融资与市场反应,也将影响 OpenAI 在科技行业中的发展方向。

标签