OpenAI发布全新o1模型:它会像人类一样“深思熟虑”|甲子光年

### OpenAI新型号o1在毫无预警中发布

OpenAI的“草莓”(Strawberry)模型在全球期待中终于公布,令人惊讶的是,这一切在毫无预备的情况下迅速展开。北京时间今天凌晨,OpenAI发布了新型号OpenAI o1,这也正是之前所传的“草莓”,最初代号为“Q*”。OpenAI的CEO萨姆·奥尔特曼(Sam Altman)称其为“新范式的开始”。

通过官方的信息分析,o1模型的特点可以总结为:更大、更强、更慢、更贵。经过强化学习(Reinforcement Learning),OpenAI o1在推理能力方面实现了重大进步。研发团队观察到,随着训练时间(强化学习的增加)和思考时间(测试过程中的计算)延长,o1的表现不断提升,这种扩展的挑战与大型语言模型(LLM)的预训练限制截然不同。

关于o1自主执行浏览器或系统操作级别任务的功能,目前公开信息尚未提及。OpenAI表示,虽然初期模型并未支持网络搜索、上传文件和图片等功能,但在解决复杂推理问题上有显著进步,显示了人工智能技术的新水平。因此,o1系列被视为一个新的起点。

o1模型在回答前会进行10—20秒的“深思熟虑”,构建内部思路链,并尝试不同策略及识别错误。这种推理能力赋予o1广泛的行业应用潜力,尤其在科学、数学和编程任务中,与博士生的水平相当。在国际数学奥林匹克资格考试(AIME)中,o1的正确率达到83%,成功进入美国前500名学生,而其前代模型GPT-4o的正确率仅为13%。

OpenAI还列举了一些具体应用案例,包括医疗研究、量子光学公式生成以及复杂工作流程的构建等。o1系列模型包括OpenAI o1、o1-preview和o1-mini,其中o1为高级推理模型,尚未对外开放;o1-preview则更重视深度推理,每周使用30次;o1-mini则是一款更高效、经济的编码模型,每周使用50次。开发者和研究人员可以通过ChatGPT和API访问这些模型。

### 市场反应与价格心理战

在o1发布之前,传闻OpenAI可能推出的“草莓”和“猎户座”模型的定价为每月2000美元,引发了社会的广泛讨论。然而,今日实际销售的ChatGPT Pro会员定价为200美元/月。这种价格差异令人感到“占便宜”的心理战,显示了OpenAI的市场策略。

在今年5月,奥尔特曼提到未来的GPT-5可能会将数据与推理引擎分离,认为现阶段的推理引擎仍存在资源浪费的问题。但在今日的发布中,GPT-5并未出现,数据与推理引擎分离的设想也未得到落实。

### 打磨“思维链”

大模型因其“不会数数”而受到批评,根本原因在于缺乏结构化推理能力。推理是人类智能的核心能力之一,而大模型主要通过非结构化文本数据进行训练,在处理复杂推理任务时则显得无能为力。因此,OpenAI引入了思维链(Chain of Thought, CoT)技术,以帮助模型逐步解释推理过程,解决问题。

尽管人工标注思维链既耗时又昂贵,强化学习的实施可以避免这种负担。强化学习使模型通过试错获得经验,从而优化问题解决方案,无需人工干预。这种方法不仅提升了o1的推理能力,还能使其在遇到逻辑障碍时尝试新的解决办法。

通过强化学习,o1逐步完善思考过程,识别和纠正错误,将复杂问题分解为更简单的部分。这使得o1在推理上表现得更加高效。OpenAI联合创始人格雷格·布罗克曼表示,这一次是首次使用强化学习进行训练的模型。

### OpenAI的动荡与挑战

在o1发布前,OpenAI遇到了管理层的剧烈动荡。今年2月,创始成员安德烈·卡帕斯宣布离职,随后前首席科学家伊利亚·苏茨克维、超级对齐团队共同主管简·雷克等核心成员相继离职,这使OpenAI的未来充满不确定性。

随着商业化进程的加速,团队成员流失和运营成本的上升使得公司面临巨大的财务压力。根据外媒报道,OpenAI可能面临高达50亿美元的亏损,整体运营成本预计达到85亿美元。此外,公司正在寻求新一轮融资以支持其快速发展。

OpenAI在此背景下的o1发布,展示了其保持竞争力的努力与挑战。

### 结论

OpenAI的o1模型不仅提升了推理能力,也展示了在复杂问题中应用的新技术。如果后续版本能继续推进这些创新,同时解决管理问题和市场挑战,o1系列将为人工智能的未来发展铺平道路。随着技术的不断进步,o1在解决科学和编程任务中的广泛应用前景值得期待。

标签