“编程作为一个职业在今日终结”,OpenAI新模型o1的可怕之处
### 回顾 OpenAI 的高层动荡与新模型的发布
还记得之前 OpenAI 的高层大地震吗?在那场风波中,Sam Altman 被罢免,联合创始人 Greg Brockman 离职,OpenAI 内部矛盾激化,而这一切的导火索则是一个名为 Q*(读作 Q-Star)的项目。
据知情人士透露,Q* 项目取得了重大进展,已能解决基本的数学问题。与能够处理有限运算的计算器以及每次提供不同答案的 GPT-4 相比,Q* 的能力更像是拥有了概括、学习和理解的能力,这是迈向通用人工智能(AGI)的关键一步。有研究人员向董事会发出警告,称 Q* 的发现可能威胁全人类,而 Sam Altman 则选择隐瞒这一信息。
这一切在 OpenAI 内部引发了巨大的变动,而 OpenAI 本身从未正面回应过 Q* 的存在。
当前,OpenAI 突然发布了一个新的模型,该模型为前瞻版,正是传闻中的 Q*,后来代号为“Strawberry”,如今被称为 OpenAI o1-preview。
### 全新推理模型的特点
o1-preview 是一款致力于解决复杂问题的新推理模型,OpenAI 表示,这一模型“代表了人工智能的新高度”,与以往的大模型存在显著差异,可以独立成立为一个新系列,重新从 1 开始计数(“GPT5:我老了!”)。
至于这个模型是否真的如 Ilya Sutskever 和其他离职的核心科学家判断的那样,可能会“威胁人类”并促使我们进入 AGI 时代,读者可以在本文中自行判断。
### o1 的卓越表现
首先,来看 o1 的性能表现。
每一代大模型问世时,都能创造出前所未有的成绩,而这次的 o1 有着本质的不同。近期流行的大模型大多以聊天机器人的形式出现,思考过程较难解释,并且更多关注多模态(能说、能看、能听),在语气和反应上越来越像人类,而 o1 则有所不同。
OpenAI 科学家 Noam Brown 指出,目前 o1 可以在几秒内给出答案,但未来的目标是能进行几小时、几天甚至几周的思考。他提到 o1 在经过十几秒的思考后成功对一个病例做出诊断,推理时间的增加意味着模型可以构建更长的思维链,进行更深入的分析。
而在数学问题上的表现尤其突出。以美国数学邀请赛(AIME)为例,o1 的得分达到 74 分。若进行多次抽样并对结果进行排序,o1 可以获得 93 分,跻身全美前 500 名。此外,在为 2024 年国际信息学奥林匹克(IOI)考试解题时,o1 在 10 小时内取得了 213 分,排名人类选手的前 49%。如果允许提交次数达到 10000 次,o1 甚至能得 362.14 分,达到获得 IOI 金牌的水准。
### 深入思考与逻辑推理
显然,o1 的目标并不是简单地追求反应速度,而是更注重思维的深度。它会花费更多的时间进行思考与完善思维过程,尝试不同的策略,从错误中学习。这种反应能力的变化令人震惊。o1 在解答逻辑悖论问题时,能展示其思考过程,表现出类人思维的能力。
通过将问题拆分成多个步骤,o1 在回答之前会进行深入思考,并生成推理过程中的总结信息,之后再给出最终答案。这种高阶的推理能力使其在应对复杂的逻辑和数学问题时表现得游刃有余。
### 新的工作方式与格式
由于 o1 的工作方式已经与 ChatGPT 大相径庭,因此之前的 prompt 编写教程似乎不再适用。OpenAI 更新了token使用指南,强调应尽量使用简洁明了的指令,避免过度引导。生成最有效的输入格式将直接影响到 o1 的回答质量。
例如,较好的输入可以是分开明确的指令,如:
“`
<写一个贪吃蛇游戏>
<要3D的>
<蛇碰到边框游戏结束>
“`
这种直白的命令能够更有效地传达任务,而没有多余的描述。
### 结语:新时代的挑战与希望
OpenAI 新发布的 o1 模型,标志着在人工智能领域的重大进步和转型。虽然其未来可能面临许多挑战,尤其是关于其对人类社会的潜在影响,但无可否认的是,它的推理能力和应用范围的扩展将为各行业的开发与应用带来新的机遇。
随着技术的不断发展,也许在不久的将来,o1不仅会在科学与工程领域大展拳脚,还可能在日常生活中的应用场景中发挥作用,促进人类更高效地解决复杂问题。在这一过程中,如何平衡 AI 的发展与人类的伦理道德,将是未来的重要议题。