从“苏三说”来看ChatGPT o1推理能力的进化
### OpenAI 重磅发布 o1:推理能力的革命
昨晚,OpenAI 重磅推出了其最新模型 o1。该模型不仅能处理问题,更能在作答之前进行“思考”。o1 的一大亮点便是其“思考链条(Chain of Thought)”。尽管这一概念并不新颖,有兴趣的读者可以查阅我之前关于大型语言模型(LLM)的相关文章以获取更多背景信息。
在正式讨论之前,我们先来看一下 o1 的实际效果。我们将使用一个 LLM 以前难以解决的经典问题,即“苏三说”的问题。虽然这个名字略显调侃,但问题其实是关于 Susan 的兄弟姐妹有几个,涉及多次逻辑推理。
首先看看之前的 ChatGPT-4 在这个问题上的回答:
(结果并不正确,GPT-3.5 的表现我们暂且不提。)
相比之下,ChatGPT o1-preview 的回答是正确的,而 o1-mini 的结果同样无误。这表明,ChatGPT o1 的推理能力确实有所增强,但关于思考链条和强化学习的具体应用仍未披露,这取决于模型内部的结合程度,我认为在终端应用上还有进一步扩展的空间。
### o1 的神奇之处:思考链条推动了推理的飞跃
传统语言模型往往依赖预训练数据直接给出答案,而 o1 的突破在于引入了强化学习,使模型在给出答案之前能够生成一系列内在的推理过程。换言之,它不仅仅是“背书”,而是学会了“思考”!这种链式推理不仅让模型在编程、数学等逻辑性强的任务中表现突出,也让它在处理复杂问题时更加游刃有余。
在许多涉及复杂推理的任务中,o1 甚至能够与人类专家媲美。在近期的评估中,o1 在全球顶尖高中数学比赛 AIME 2024 的考试中,单次作答平均正确 74% 的题目,经过多次验证(64次)后,准确率能达到 93%,成功跻身全美前 500 名学生之列。而在同一测试中,GPT-4o 的表现仅为 12%,差距显著。
更重要的是,o1 在物理、化学和生物学的问答中同样表现出色,其准确率超过了参与测试的博士专家。这一成就表明,机器不仅能够解决问题,而且开始拥有与人类专家相当的推理能力。
### 强化学习助力推理能力的提升
o1 模型的训练策略核心是强化学习。在这一过程中,模型不仅学习到了如何生成答案,还通过大量的训练逐步优化自身的推理链条。面对复杂的逻辑和推理任务,模型通过不断“思考”和“纠错”,最终找到最佳的解题路径。
例如,传统模型可能直接通过训练数据生成答案,而 o1 则在遇到问题时首先会拆解问题,尝试不同的解决方案,甚至在一种方法无效时主动改变思路。这种“多思多试”的策略使 o1 在许多推理任务中展现出了比前代模型更高的成功率。
有趣的是,o1 的表现不仅在训练中逐渐提升,测试时给予模型更多的思考时间也能使其表现更佳。换句话说,给 o1 足够的时间,它甚至能在思考中变得更加聪明。
### 编程竞赛中的优异表现
在国际信息学奥林匹克竞赛(IOI)中,o1 也展示了卓越的编程能力。在 2024 年的 IOI 比赛中,o1 模拟了 10 小时内解决六道复杂编程题的比赛环境,最终得分高达 213 分,超越了近一半的人类参赛者。这一成绩足以证明,o1 不仅仅是一个懂编程的 AI,它在高压竞赛环境中也能表现优异。
为进一步测试 o1 的编程能力,研究人员在编程平台 Codeforces 进行了一系列模拟比赛。在这些竞赛中,o1 的 Elo 评分高达 1807,击败了 93% 的竞争对手,而前代模型 GPT-4o 的评分仅为 808。这表明强化学习和思考链条的引入,为 AI 编程能力带来了质的飞跃。
### 安全性与人类偏好测试:更聪明也更安全
在 AI 模型的实际应用中,安全性至关重要。o1 通过强化学习,不仅提高了推理能力,还在安全性方面取得了显著进展。研究人员在 o1 的思考链条中引入安全规则,成功提升了模型的稳健性。在应对恶意使用和“越狱”测试时,o1 的表现优于以往的版本。例如,在测试中间涉及可能引发非法内容时,o1 的安全拒绝率高达 96%。
人类偏好的测试结果也显示出,o1 在推理任务上的表现更符合人类需求。虽然在一些自然语言处理任务中,o1 的表现不如 GPT-4o 受欢迎,但在更为看重逻辑推理、数据分析和编程的领域,o1 显著占据优势。
### 实验结果一览
o1 的优势不仅体现在个别任务中,它在多项竞赛评估和学术基准测试中都表现优异。以下是部分关键实验结果:
| 任务 | GPT-4o | o1-preview | o1 |
|————————————————————-|———|————|———|
| AIME 2024 数学比赛(Pass@1) | 9.3% | 44.6% | 74.4% |
| Codeforces 编程比赛(Elo评分) | 808 | 1,258 | 1,673 |
| 物理问题解答(Pass@1) | 59.5% | 89.4% | 92.8% |
| MMLU 测试 | 88.0% | 90.8% | 92.3% |
### 最后总结
通过领英知名人士 Jim Fan 的评论作为结尾,他指出:
“我们终于见证了推理时规模扩展的范式在生产环境中的推广和应用。正如 Sutton 在《Bitter Lesson》中所言,只有学习和搜索这两种技术能随计算能力的增长而无限扩展。现在是时候将重点转向后者了。
不需要巨大的模型也能进行推理,很多模型的参数都是用于记忆事实,以便在问答测试中表现优异。但推理能力是可以从知识中分离出来的,这意味着可以设计一个小型的“推理核心”,它能有效调用工具,如浏览器和代码验证器。这样,预训练所需的计算量可以减小,计算资源将更多地用于推理阶段,而不是预训练或后训练。
OpenAI o1 可能引入了自 2022 年经典的 Chinchilla 缩放定律以来 LLM 研究领域中最重要的突破。关键在于两个曲线同时发挥作用,而非单一曲线。虽然人们通过训练缩放定律预测 LLM 的能力停滞,但它们未能看到推理扩展才是真正打破收益递减的关键。
随着更多的研究展开,o1 的推出无疑将在 AI 领域开启新的篇章。”
### 见解
OpenAI 的 o1 模型无疑在推理能力和实用性方面向前迈出了重要一步。通过引入思考链条和强化学习,这一模型在处理复杂问题时的表现显著优于以往的版本。这不仅为人工智能的发展带来了极大的希望,也为未来更加智能和安全的 AI 应用提供了基础。然而,确保 AI 安全性和与人类期望的结合仍然是一个重要的挑战。在推广和应用这些技术时,必须保持谨慎,以确保其负责任的使用。