突发!OpenAI发布最强模型o1:博士物理92.8分,IOI金牌水平
### OpenAI 新模型 o1 系列正式上线!
OpenAI 最新发布的 o1 系列模型无预警登场,标志着智能推理技术的重大进展。相比于前任模型,o1 在通用复杂推理方面表现出色,每次回答时需要更长时间的思考。其推理能力的提升使得它在处理高难度学术问题时表现卓越。
在解决博士级物理问题的测试中,GPT-4o 仅获得了 59.5 分的“不及格”,而 o1 一举提升至 92.8 分,成功进入“优秀”档次。这可谓是草莓的辉煌首秀!
OpenAI 的 CEO 奥特曼表示,o1 是一种新范式的开端,专注于增强通用复杂推理能力。具体来说,o1 系列是 OpenAI 首个经过强化学习训练的模型,它会在输出回答之前先进行长时间的思维链生成,进而提升模型的表现。换句话说,思维链越长,o1 的推理能力就越强。
#### 推理成绩显著提升
o1 的强大之处不仅体现在其创新的设计上。根据 CEO 的说法,在最近结束的 2024 IOI 信息学奥赛中,o1 的微调版本在每题尝试 50 次的情况下取得了 213 分,位列人类选手中前 49%。若允许每题尝试 10,000 次,o1 的得分或可达到 362.14 分,超越金牌选手的门槛。
在其他诸如竞争性编程问题(Codeforces)和美国数学奥林匹克(AIME)预选赛中,o1 同样显示出卓越的前景,分别排名前 89% 和美国前 500 名学生之列。
#### 分类与特性
在性能提升方面,相比于 GPT-4o,o1 在数理化、生物、英语、法律及经济等领域成果均表现了不同程度的改进。此次o1系列的发布型号分为三个版本:
1. **o1**:新的大模型天花板,因过于强大而暂时不公开。
2. **o1-preview**:o1 的早期版本,已面向 ChatGPT 付费用户和 API 用户开放。
3. **o1-mini**:速度更快、性价比更高,适合需要推理但不需广泛世界知识的任务。
OpenAI 员工用“系统1”和“系统2”思维来阐释 o1 系列与之前模型的区别,持续受到关注。
#### 思维链的进化
思维链提示方法的原创者 Jason Wei 指出,此次创新不仅仅依靠简单提示,还通过强化学习训练模型以更好地执行链式思考。这使得 o1 在解决问题时能像人类一样,将复杂步骤分解成更简单的环节,从而识别错误并尝试不同方法。
o1 模型在训练过程中学习完善思维过程,并尝试多种策略,尽管在某些有用功能上尚不如 ChatGPT,但在复杂推理任务上显然是一次巨大飞跃。
#### 应用场景与潜力
根据示例,o1-preview 在编写 Bash 脚本的任务中,首先复述要求,然后详细拆解问题,明确最终目标,最后才动手编写代码,确保一次性得到正确结果。OpenAI 希望 o1 能为医疗、物理等领域的专家提供强大支持,辅助研究和开发复杂数学公式与数据分析。
在具体测试中,o1-preview 在数据分析、编码和数学等领域明显优于 GPT-4o,但在某些自然语言任务中,表现并不如预期,这显示出其适用场景的局限性。
#### 未来展望
OpenAI 科学家 Noam Brown 分享的测试结果表明,o1-preview 能够有效解决之前无模型能解的逻辑难题,表现令人期待。目前,o1 产品的思考时间在几秒到十几秒,但 OpenAI 未来的目标并不是缩短思考时间,而是努力增加它,旨在让未来版本具备更深的思维能力。
#### 访问与体验
官方网站透露,ChatGPT Plus 和 Team 用户将最早在几小时内体验到 o1 系列模型更新,而 API 访问权限将优先开放给 Tier 5 用户,这些用户在 OpenAI API 上的消费已超过 1000 美元。随着持续的优化与更新,o1 系列的表现值得期待。
这次的发布不仅开启了 OpenAI 的新篇章,也为人工智能的未来发展指明了方向。快来打开 ChatGPT,看看自己是否成为了第一波品尝草莓的用户吧!