实测 OpenAI 新模型 o1 :做题王者,实战青铜

### OpenAI 新发布的 o1 系列模型:推理能力的提升与实际应用的挑战

今天凌晨,OpenAI 发布了 o1 系列模型,最显著的特点是其突出推理能力。每一代模型都在不断进步,我们的测评任务也愈加复杂,测评变成了一项需要充分准备的工作,生怕提出的问题无法难倒这个新模型。在进行推理测试之前,我们甚至感到脑力透支。因此,我们的核心关切是:这个备受期待的新一代模型,能否在真实生活中展现其推理能力?又该如何有效测量这一能力?

基于这一思考,我们设计了一套用于考验 o1-preview 综合能力的测试题。

#### 结论:擅长做题但未能成为生活助手

经过测试,o1-preview 显示出擅长解题和进行研究,更像是适合在实验室工作的高才生,而并非理想的日常生活助手。

#### 热身阶段:数学与逻辑能力的快速响应

在发布会上,o1 在各项任务上的表现都令人大为惊艳,尤其是在 AIME 数学竞赛的测评中。AIME 的考题看似复杂,但 o1-preview 的反应非常迅速,直接上手解题。

例如,给定一题:**爱丽丝有 4 个兄弟,她还有 1 个姐妹。爱丽丝的兄弟有多少个姐妹?** 这个简单的逻辑题 o1-preview 很快答对,显示出其优秀的数学和逻辑能力。比较其他开源 AI 模型,o1-preview 的推理能力明显有了提升,特别是相较于 GPT-4o 在这类问题上的错误表现。

#### 进阶考验:情景推理更准确但速度稍慢

接下来的测试中,我们尝试了知名的海龟汤推理游戏。在这个游戏中,出题者提供一个简短而模糊的故事背景,玩家通过提问推导出真相。我们给了 o1-preview 五次提问的机会,虽然其反应速度没有 GPT-4o 快,但最终得出的推理结论相当接近标准答案。

然而,它的思维过程略显不够深入,未能完全遵循设定的提问次数。相比之下,GPT-4o 的反应几乎为实时,但思维上表现得更为跳脱,缺乏对问题的深度分析。

#### 实际应用考验:处理生活中复杂的计算问题

在处理生活实际问题时,o1-preview 的表现则稍显不足。尽管能够对一些简单的购机补贴计算进行快速反应,但由于知识库截止于去年,对新政策的实时反应并不理想。

我们尝试设计一个实际情境,输入有关购买新电脑的详情,但 o1-preview 的反应仍然依赖于各种假设,且需依靠我们提供的信息,这并未为用户节省太多时间。实际操作中,涉及的优惠、条件和限制相互之间错综复杂,远非单纯的加减法所能解决。这要求的不是简单的推理,而是灵活应变和综合判断的能力。

#### 综合评估:推理能力在人类思维面前依然面临挑战

通过先前的测评,以及来自其他用户的反馈,我们注意到,o1-preview 在测试中的表现虽有显著提升,但从整体来看,仍表现出一种“做题”的倾向,缺乏在生活实际应用中的灵活性。

无论是数学题,阅读理解,亦或是填空题,模型的“卷面能力”虽强,但却在实际需求中显得力不从心。

在 OpenAI 的官方文档中,有提到思维链的概念,强调通过模拟人类的思维过程来提升模型的推理能力。然而,要做到全面模拟人类的思考,o1-preview 仍然有很长的路要走。人类的思维不仅可以拆解问题,还具备综合、全局性的视角,这一点目前的 o1-preview 尚无法完全实现。

#### 结语:前景可期,挑战犹存

虽然推动 AI 向通用智能(AGI)迈进的道路上已有曙光,但仍然需要经过漫长而艰难的探索与发展。用户应保持理性期待,认识到 AI 在学习、推理等方面能提供帮助,但要作为生活助手,我们或许还需耐心等待更成熟的技术。

标签