突发！OpenAI发布最强模型o1：博士物理92.8分，IOI金牌水平

superadmin 9 月 15, 2024 273 0

### OpenAI 新模型 o1 系列正式上线！

OpenAI 最新发布的 o1 系列模型无预警登场，标志着智能推理技术的重大进展。相比于前任模型，o1 在通用复杂推理方面表现出色，每次回答时需要更长时间的思考。其推理能力的提升使得它在处理高难度学术问题时表现卓越。

在解决博士级物理问题的测试中，GPT-4o 仅获得了 59.5 分的“不及格”，而 o1 一举提升至 92.8 分，成功进入“优秀”档次。这可谓是草莓的辉煌首秀！

OpenAI 的 CEO 奥特曼表示，o1 是一种新范式的开端，专注于增强通用复杂推理能力。具体来说，o1 系列是 OpenAI 首个经过强化学习训练的模型，它会在输出回答之前先进行长时间的思维链生成，进而提升模型的表现。换句话说，思维链越长，o1 的推理能力就越强。

#### 推理成绩显著提升

o1 的强大之处不仅体现在其创新的设计上。根据 CEO 的说法，在最近结束的 2024 IOI 信息学奥赛中，o1 的微调版本在每题尝试 50 次的情况下取得了 213 分，位列人类选手中前 49%。若允许每题尝试 10,000 次，o1 的得分或可达到 362.14 分，超越金牌选手的门槛。

在其他诸如竞争性编程问题（Codeforces）和美国数学奥林匹克（AIME）预选赛中，o1 同样显示出卓越的前景，分别排名前 89% 和美国前 500 名学生之列。

#### 分类与特性

在性能提升方面，相比于 GPT-4o，o1 在数理化、生物、英语、法律及经济等领域成果均表现了不同程度的改进。此次o1系列的发布型号分为三个版本：

1. **o1**：新的大模型天花板，因过于强大而暂时不公开。
2. **o1-preview**：o1 的早期版本，已面向 ChatGPT 付费用户和 API 用户开放。
3. **o1-mini**：速度更快、性价比更高，适合需要推理但不需广泛世界知识的任务。

OpenAI 员工用“系统1”和“系统2”思维来阐释 o1 系列与之前模型的区别，持续受到关注。

#### 思维链的进化

思维链提示方法的原创者 Jason Wei 指出，此次创新不仅仅依靠简单提示，还通过强化学习训练模型以更好地执行链式思考。这使得 o1 在解决问题时能像人类一样，将复杂步骤分解成更简单的环节，从而识别错误并尝试不同方法。

o1 模型在训练过程中学习完善思维过程，并尝试多种策略，尽管在某些有用功能上尚不如 ChatGPT，但在复杂推理任务上显然是一次巨大飞跃。

#### 应用场景与潜力

根据示例，o1-preview 在编写 Bash 脚本的任务中，首先复述要求，然后详细拆解问题，明确最终目标，最后才动手编写代码，确保一次性得到正确结果。OpenAI 希望 o1 能为医疗、物理等领域的专家提供强大支持，辅助研究和开发复杂数学公式与数据分析。

在具体测试中，o1-preview 在数据分析、编码和数学等领域明显优于 GPT-4o，但在某些自然语言任务中，表现并不如预期，这显示出其适用场景的局限性。

#### 未来展望

OpenAI 科学家 Noam Brown 分享的测试结果表明，o1-preview 能够有效解决之前无模型能解的逻辑难题，表现令人期待。目前，o1 产品的思考时间在几秒到十几秒，但 OpenAI 未来的目标并不是缩短思考时间，而是努力增加它，旨在让未来版本具备更深的思维能力。

#### 访问与体验

官方网站透露，ChatGPT Plus 和 Team 用户将最早在几小时内体验到 o1 系列模型更新，而 API 访问权限将优先开放给 Tier 5 用户，这些用户在 OpenAI API 上的消费已超过 1000 美元。随着持续的优化与更新，o1 系列的表现值得期待。

这次的发布不仅开启了 OpenAI 的新篇章，也为人工智能的未来发展指明了方向。快来打开 ChatGPT，看看自己是否成为了第一波品尝草莓的用户吧！

近期文章