深夜空降!OpenAI草莓正式发布,命名o1, GPT-4o被碾压!
### OpenAI 全新模型 o1 的到来
今晚,OpenAI 最新模型正式推出!先来看看这张图,你会明白一切。
**GPT-4o 竟然被碾压至此?**
是的,GPT-4o 竟然被新模型 o1 碾压得毫无还手之力。OpenAI CEO萨姆·阿特曼(Sam Altman)表示,o1 是迄今为止最强大、最一致的模型,标志着一个新范式的开始。
**何为 o1?**
o1 代表一个新的起点,因为它具备进行通用复杂推理的能力。与其前身 GPT-4.5 或 GPT-5 的命名不同,OpenAI 选择了从1重新开始计算,体现了它在复杂问题解决方面的突出表现,尤其在编码、数学和科学领域,o1 的能力大大超越了 GPT-4o。可以说,o1 是一个极度偏科的理工科天才。
**思考时间的权衡**
不过,o1 也有一个明显的缺点:在回答之前,它需要花费更长的时间进行思考。这是因为它的内部会产生一个长长的思维链,通过深入思考来解决复杂的推理任务。这个现象可以理解,毕竟在解答高考数学的最后一道大题时,花多一点时间思考是非常正常的。
**性能展示**
让我们看看 o1 的具体表现。首先,在数学和编码方面,它的表现非常值得称道。在国际数学奥林匹克(IMO)资格考试中,GPT-4o 仅正确解决了 13% 的问题,而 o1 的得分却达到了 83%。在编码方面,o1 在竞争性编程问题 (Codeforces) 中排名第 89%,并在物理、化学和生物学科中表现出色,得分达到 78,超越了人类专家的 69.7 分。
不仅如此,o1 在众多基准测试中都超越了 GPT-4o,甚至由于表现过于优秀,许多常用的测试如 MATH 和 GSM8K 都无法提供有效的基准,只能用美国奥数题目进行比较。
**思维链的优势**
o1 的慢速回复与其深入的思维链密切相关。通过大规模强化学习算法,o1 能够在回答问题之前进行复杂的思维链,从而实现更深入的推理。同时,它还学习了如何高效利用这条思维链,纠正自己的错误,分解棘手的步骤为更简单的步骤,极大提高了推理能力。
例如,用户请求解码一个字符串,o1 开始思考并一步步推导出结果。虽然思维链的详细过程可能显得冗长,但这也正是它进行复杂推理的力量所在。
**应用场景的局限性**
尽管 o1 在许多领域表现出色,但在文章写作和编辑等自然语言处理任务上,o1 的表现却不尽如人意,甚至不如 GPT-4o。
OpenAI 在公布此模型时还引发了一些争议。出于对用户安全的考虑,OpenAI 决定不向用户展示完整的思维链。这一切都源于对“思维链可能偏离用户思路、控制用户思维”的担忧。
**o1-mini 的推出**
作为补偿,OpenAI 还推出了 o1-mini 模型。o1-mini 是一款小型模型,速度更快、延迟更低且价格更加亲民,但在推理能力上依旧优于 GPT-4o。
**如何体验 o1**
o1 和 o1-mini 两个模型今日将在 ChatGPT 中上线,Plus 和 Team 订阅用户可直接体验。开发展者也能通过 API 访问这两个模型,其中 o1-mini 的价格比原模型便宜 80%。但请注意,每周请求频率有限制,o1-preview 为每周 30 条消息,o1-mini 为每周 50 条。
刚好这一点有限制,可能会影响体验。如果想尝鲜的小伙伴们,快去试用并告诉我 o1 的表现究竟如何吧!
—
### 见解
OpenAI 的新模型 o1 展现了在复杂推理和编码领域的显著进步,标志着人工智能技术的又一次飞跃。尽管在自然语言处理方面尚有不足,但其在科学和数学等领域的表现令人期待。
o1 的思维链能力为模型赋予了更深入的推理能力,尽管这意味着更长的思考时间,仍然有效提升问题解决的效率。这一模式的出现,可能对未来的 AI 发展方向产生深远影响,推动人们重新审视 AI 在复杂任务中的应用潜力。
同时,关于模型的安全性和思维链的透明度,OpenAI 的做法也引起了讨论。如何在保证用户体验与安全性之间取得平衡,将是未来 AI 开发中必须解决的挑战。