实测OpenAI最强模型o1：会做大学数理化，但弱智吧依然难解

superadmin 9 月 15, 2024 236 0

### OpenAI 传说中的“草莓”终于正式上线！

OpenAI 最新款模型 o1 正式面世，这一发布引发了科技界的广泛关注。o1 不仅具备处理更复杂推理任务的能力，在数学、编程及其他科学领域中也表现出色，能够解决更加困难的问题。

这次的“无预警发布”让全行业感到震撼，CEO 奥特曼甚至表示，o1 的推出标志着一个新范式的开始。发布后，很多专家和网友纷纷对 o1 进行评测，其强大的推理能力令大家惊叹。

例如，有人提出了一个简单的逻辑问题：“你的回复中有几个字？” o1 的回答令人感到困惑：在不同的回复中，它出现了矛盾的答案。

知名科技媒体量子位也对 o1 进行了测试，结果显示，虽然 o1 的推理能力大幅提升，但在某些复杂问题上仍然显得不够智能。

#### 推理能力显著增强，但仍难敌复杂问题

不争的事实是，尽管 o1 在推理能力上取得了显著进步，当面对一些充满挑战的复杂问题时，它仍然可能会掉入“陷阱”。

当然，对于较为常规的问题，o1 的表现依然强劲。我们可以先来看看它在逻辑推理任务上的表现。测试中，preview 和 mini 的思考时间分别为 21 秒和 14 秒。虽然 mini 的思考过程似乎更为详细，但最终结果都是正确的。

在具体的大学数学题目测试中，例如涉及曲面积分和高斯定理的考研真题，preview 和 mini 也都给出了正确答案。值得注意的是，虽然 preview 提供了更详细的思考过程，但偶尔会出现语言混杂的情况。

在概率问题上，preview 依旧展现出强大的解题能力，步骤清晰且准确，而 mini 的解答同样无可挑剔。物理及化学题目的解答也保持一致，均呈现出较高的准确率。

在编程能力的测试中，o1 展示了其强大的一面，包括快速编写代码并成功运行。此外，知名 AI 配音工具的负责人 Ammaar Reshi 也利用 o1 制作了一款 iOS 天气应用，显示出其在实际应用中的潜力。

#### 对小数比较的挑战

然而，在许多大模型难以应对的经典问题中，例如小数大小的比较，preview 和 mini 生成的答案均不正确。即便在思考过程中，preview 已提到 9.8 比 9.11 大，结果却依然错了。这表明，o1 对问题的理解可能出现了歧义。

为进一步探讨此问题，添加了更明确的说明后，o1 最终能够正确解答。可见，在提示词的设计上，清晰度与简洁性至关重要。OpenAI 官方也对此给出了建议，比如使用简单直接的提示词，并避免复杂的思维链结构。

#### 总结与展望

总的来说，o1 的发布不仅在多个领域展现出了强大的能力，也为人们提供了更多的探索与应用的可能性。尽管在某些特殊问题上它仍然存在不足，但进步显而易见。在未来的研究和应用中，期待 o1 及其后续版本能够持续提升在智能推理方面的能力，帮助用户解决更多复杂问题。

此外，关于这一版本的表现，部分用户表示 mini 的效果优于 preview，引发了更多讨论。如前特斯拉自动驾驶负责人 Andrej Karpathy 所指出，“大模型犯懒”甚至成为了一个需要亟待解决的难题。这些反思与反馈，希望能推动 o1 未来的进一步优化。

近期文章