实测OpenAI最强模型o1:会做大学数理化,但弱智吧依然难解

### OpenAI 传说中的“草莓”终于正式上线!

OpenAI 最新款模型 o1 正式面世,这一发布引发了科技界的广泛关注。o1 不仅具备处理更复杂推理任务的能力,在数学、编程及其他科学领域中也表现出色,能够解决更加困难的问题。

这次的“无预警发布”让全行业感到震撼,CEO 奥特曼甚至表示,o1 的推出标志着一个新范式的开始。发布后,很多专家和网友纷纷对 o1 进行评测,其强大的推理能力令大家惊叹。

例如,有人提出了一个简单的逻辑问题:“你的回复中有几个字?” o1 的回答令人感到困惑:在不同的回复中,它出现了矛盾的答案。

知名科技媒体量子位也对 o1 进行了测试,结果显示,虽然 o1 的推理能力大幅提升,但在某些复杂问题上仍然显得不够智能。

#### 推理能力显著增强,但仍难敌复杂问题

不争的事实是,尽管 o1 在推理能力上取得了显著进步,当面对一些充满挑战的复杂问题时,它仍然可能会掉入“陷阱”。

当然,对于较为常规的问题,o1 的表现依然强劲。我们可以先来看看它在逻辑推理任务上的表现。测试中,preview 和 mini 的思考时间分别为 21 秒和 14 秒。虽然 mini 的思考过程似乎更为详细,但最终结果都是正确的。

在具体的大学数学题目测试中,例如涉及曲面积分和高斯定理的考研真题,preview 和 mini 也都给出了正确答案。值得注意的是,虽然 preview 提供了更详细的思考过程,但偶尔会出现语言混杂的情况。

在概率问题上,preview 依旧展现出强大的解题能力,步骤清晰且准确,而 mini 的解答同样无可挑剔。物理及化学题目的解答也保持一致,均呈现出较高的准确率。

在编程能力的测试中,o1 展示了其强大的一面,包括快速编写代码并成功运行。此外,知名 AI 配音工具的负责人 Ammaar Reshi 也利用 o1 制作了一款 iOS 天气应用,显示出其在实际应用中的潜力。

#### 对小数比较的挑战

然而,在许多大模型难以应对的经典问题中,例如小数大小的比较,preview 和 mini 生成的答案均不正确。即便在思考过程中,preview 已提到 9.8 比 9.11 大,结果却依然错了。这表明,o1 对问题的理解可能出现了歧义。

为进一步探讨此问题,添加了更明确的说明后,o1 最终能够正确解答。可见,在提示词的设计上,清晰度与简洁性至关重要。OpenAI 官方也对此给出了建议,比如使用简单直接的提示词,并避免复杂的思维链结构。

#### 总结与展望

总的来说,o1 的发布不仅在多个领域展现出了强大的能力,也为人们提供了更多的探索与应用的可能性。尽管在某些特殊问题上它仍然存在不足,但进步显而易见。在未来的研究和应用中,期待 o1 及其后续版本能够持续提升在智能推理方面的能力,帮助用户解决更多复杂问题。

此外,关于这一版本的表现,部分用户表示 mini 的效果优于 preview,引发了更多讨论。如前特斯拉自动驾驶负责人 Andrej Karpathy 所指出,“大模型犯懒”甚至成为了一个需要亟待解决的难题。这些反思与反馈,希望能推动 o1 未来的进一步优化。

标签