深夜空降！OpenAI草莓正式发布，命名o1， GPT-4o被碾压！

superadmin 9 月 13, 2024 334 0

### OpenAI 全新模型 o1 的到来

今晚，OpenAI 最新模型正式推出！先来看看这张图，你会明白一切。

**GPT-4o 竟然被碾压至此？**

是的，GPT-4o 竟然被新模型 o1 碾压得毫无还手之力。OpenAI CEO萨姆·阿特曼（Sam Altman）表示，o1 是迄今为止最强大、最一致的模型，标志着一个新范式的开始。

**何为 o1？**

o1 代表一个新的起点，因为它具备进行通用复杂推理的能力。与其前身 GPT-4.5 或 GPT-5 的命名不同，OpenAI 选择了从1重新开始计算，体现了它在复杂问题解决方面的突出表现，尤其在编码、数学和科学领域，o1 的能力大大超越了 GPT-4o。可以说，o1 是一个极度偏科的理工科天才。

**思考时间的权衡**

不过，o1 也有一个明显的缺点：在回答之前，它需要花费更长的时间进行思考。这是因为它的内部会产生一个长长的思维链，通过深入思考来解决复杂的推理任务。这个现象可以理解，毕竟在解答高考数学的最后一道大题时，花多一点时间思考是非常正常的。

**性能展示**

让我们看看 o1 的具体表现。首先，在数学和编码方面，它的表现非常值得称道。在国际数学奥林匹克（IMO）资格考试中，GPT-4o 仅正确解决了 13% 的问题，而 o1 的得分却达到了 83%。在编码方面，o1 在竞争性编程问题 (Codeforces) 中排名第 89%，并在物理、化学和生物学科中表现出色，得分达到 78，超越了人类专家的 69.7 分。

不仅如此，o1 在众多基准测试中都超越了 GPT-4o，甚至由于表现过于优秀，许多常用的测试如 MATH 和 GSM8K 都无法提供有效的基准，只能用美国奥数题目进行比较。

**思维链的优势**

o1 的慢速回复与其深入的思维链密切相关。通过大规模强化学习算法，o1 能够在回答问题之前进行复杂的思维链，从而实现更深入的推理。同时，它还学习了如何高效利用这条思维链，纠正自己的错误，分解棘手的步骤为更简单的步骤，极大提高了推理能力。

例如，用户请求解码一个字符串，o1 开始思考并一步步推导出结果。虽然思维链的详细过程可能显得冗长，但这也正是它进行复杂推理的力量所在。

**应用场景的局限性**

尽管 o1 在许多领域表现出色，但在文章写作和编辑等自然语言处理任务上，o1 的表现却不尽如人意，甚至不如 GPT-4o。

OpenAI 在公布此模型时还引发了一些争议。出于对用户安全的考虑，OpenAI 决定不向用户展示完整的思维链。这一切都源于对“思维链可能偏离用户思路、控制用户思维”的担忧。

**o1-mini 的推出**

作为补偿，OpenAI 还推出了 o1-mini 模型。o1-mini 是一款小型模型，速度更快、延迟更低且价格更加亲民，但在推理能力上依旧优于 GPT-4o。

**如何体验 o1**

o1 和 o1-mini 两个模型今日将在 ChatGPT 中上线，Plus 和 Team 订阅用户可直接体验。开发展者也能通过 API 访问这两个模型，其中 o1-mini 的价格比原模型便宜 80%。但请注意，每周请求频率有限制，o1-preview 为每周 30 条消息，o1-mini 为每周 50 条。

刚好这一点有限制，可能会影响体验。如果想尝鲜的小伙伴们，快去试用并告诉我 o1 的表现究竟如何吧！

—

### 见解

OpenAI 的新模型 o1 展现了在复杂推理和编码领域的显著进步，标志着人工智能技术的又一次飞跃。尽管在自然语言处理方面尚有不足，但其在科学和数学等领域的表现令人期待。

o1 的思维链能力为模型赋予了更深入的推理能力，尽管这意味着更长的思考时间，仍然有效提升问题解决的效率。这一模式的出现，可能对未来的 AI 发展方向产生深远影响，推动人们重新审视 AI 在复杂任务中的应用潜力。

同时，关于模型的安全性和思维链的透明度，OpenAI 的做法也引起了讨论。如何在保证用户体验与安全性之间取得平衡，将是未来 AI 开发中必须解决的挑战。

深夜空降！OpenAI草莓正式发布，命名o1， GPT-4o被碾压！

标签

近期文章

友情链接

归档

分类

标签

相关推荐

近期文章

友情链接

归档

分类