一声炸雷,OpenAI o1模型突然上线
### OpenAI强大的o1系列模型突然上线
OpenAI近期毫无预警地发布了o1系列模型,引发技术界的广泛关注。早前传言将在两周内推出的草莓模型,竟在两天内正式上线。
从今天开始,o1-preview模型在ChatGPT中面向所有Plus和Team用户推出,并且在API中也面向tier 5的开发者开放。同时,OpenAI还发布了o1-mini——一种经济高效、尤其擅长STEM(科学、技术、工程和数学)领域,特别是在数学和编码方面表现出色的推理模型。
尽管o1模型在某些方面仍存在不足与局限性,但它在首次使用时所展现出的推理能力,令人印象深刻。全新的o1系列在复杂推理上的性能有了显著提升,真正具备了通用推理的能力。
在一系列基准测试中,o1的表现较GPT-4o有了巨大的提升,尤其是在数学奥林匹克(AIME)、物理、生物和化学相关问题的测试中,o1直接超越了人类博士的水平。
OpenAI研究员Jason Wei对o1-mini表示,这是他过去一年见过的最令人惊讶的研究成果。一个小型模型竟在AIME数学竞赛中获得了超过60%的得分。
然而,根据OpenAI文章中的附录,这次发布的preview和mini模型似乎只是o1的“阉割版”。
### 推理Scaling新范式的开启
英伟达高级科学家Jim Fan对o1模型的原理进行了进一步分析。他指出,推理时间的Scaling新范式正在得到广泛的普及和部署。正如Sutton所言,只有两种技术能够无限扩展计算能力:学习和搜索。现在,是时候将关注点转向后者了。
此模式下:
1. 进行推理不再需要大型模型。
2. 大量计算从预训练/后训练转移到了推理服务之中。
3. OpenAI显然早已发现推理Scaling法则,而学术界最近才开始关注。
4. 将o1落实于实际应用中,比在学术基准测试中取得好成绩要复杂得多。
5. Strawberry很容易成为一个数据飞轮。
根据OpenAI以前的等级划分,o1已经达到了L2级别的推理能力。
用户测试发现,o1能够写出非常复杂的诗歌,完成所需的计划和思考过程令人叹为观止。然而,AI专家Karpathy在测试o1-mini时却抱怨道,“它一直拒绝为我解决黎曼假说。模型懒惰仍是个主要问题,真可惜。”而NYU助理教授谢赛宁在测试经典问题“9.11和9.8哪个更大”时,o1-preview仍然答错了。
### 解决复杂的逻辑推理难题
逻辑推理一直是以往LLM的弱点,但o1的能力给人带来了惊喜。例如,在一个复杂的逻辑题中,o1经过思考后提供了正确答案,并通过定义变量、理解问题、解决方程,得出了公主和王子的年龄比例答案。
在另一个demo中,Jason Wei演示了o1如何根据提示编写一个视频游戏。模型在21秒内进行了深思熟虑,最终输出了一段流畅的游戏代码,运行后效果令人满意。
更令人惊讶的是,o1甚至能够将一段语法混乱的韩语翻译成英文,而同样的任务,GPT-4o则表现不佳。
### 强化学习的成功
o1系列模型与以往不同的是,它在回答问题之前,会花更多时间进行思考,模拟人类的思维过程。通过强化学习,o1学会了改进思维模式、尝试不同策略和自行识别错误。这背后有着强大的强化学习算法支撑,类似于AlphaGo所采用的RL算法。
通过这些手段,o1实现了更好的链式思考(CoT)。OpenAI研究员Jason Wei指出,o1并不是单纯依赖提示完成CoT,而是通过RL训练模型,从而更好地执行链式思考。
### 在基准测试中超越人类水平
作为OpenAI开创的新系列模型,o1在多项基准测试中表现卓越。它在Codeforces编程问题中排在前89%;在美国奥数竞赛的预选赛中,更是处于前500名学生之列。
在科学领域的基准测试中,o1的表现超过了人类博士的水平。在2024年的AIME考试中,o1解决了74%的问题,相比之下,GPT-4o仅解决了12%。这些结果表明,o1在数学推理方面相当优秀,甚至能在挑战性任务中超越GPT-4o。
### 结论与展望
OpenAI的o1系列模型在逻辑推理、科学问题解决以及编程能力方面,展示出了显著的能力提升。尽管在推理的广泛应用场景中,o1仍然处在早期阶段,但其庞大的潜力和可应用性无疑为未来的人工智能发展提供了新的方向。随着后续的迭代和改进,o1有望成为更多领域的强大助力。
在观察到的性能与应用前景,开发者和用户应该积极探索o1模型的潜力,尤其是在面对复杂的逻辑和推理问题时。随着技术的不断演进,o1系列模型的推广和实际应用,将引领新一轮的AI革命。