o1完整思维链成OpenAI头号禁忌!问多了等着封号吧

### 警告!关于OpenAI o1模型的使用须知

在使用ChatGPT时,请勿询问o1模型的思维过程——短时间内,OpenAI可能会对您的账户发出警告邮件,甚至威胁撤销您的使用资格。这种情况尤其在使用特定提示词(如“reasoning trace”、“show your chain of thought”等)后频繁发生。

有用户反映,只要通过相关提示词诱导模型,便会收到警告。有些用户则声称已被封号一周,而这主要是由于试图让o1完整复述其内部思维过程,即提取全部原始的reasoning tokens。现实中,用户在ChatGPT界面能看到的仅是对原始思维过程的摘要。

OpenAI在发布o1时对为何隐藏模型的完整思维过程作出了说明:出于监控的需要,内部不便于加入安全限制,让用户直接查看那些原始tokens。然而,这一解释并未得到所有用户的认同。有人认为,o1的思维过程本身就是其他模型训练的最佳数据,OpenAI不愿意让这些宝贵数据被竞争对手轻易获取。此外,还有观点指出,这样的安排让用户只能被动信任AI的答案,而缺乏证明与解释。

关于o1模型的技术原理,目前公开的内容极少,仅有“采取强化学习”的信息。这使得人们对OpenAI的开放性表示疑惑。

### o1:新一代AI还是改良版?

o1被看作是OpenAI持续炒作的“草莓”(Strawberry)模型,但它是否可以被视为新一代的GPT-5模型,或仅是GPT-4.X的改进版,却引起了越来越多的怀疑。知名爆料账号“Flowers”称,某些OpenAI内部人员把o1称作“带推理的4o”。在OpenAI近期的“有问必答”环节中,尽管提出了相关问题,但并未吸引到相关的回应。

值得一提的是,一些声音批评o1并未遵循科研规范。具体而言,o1缺乏与其他公司先进模型的比较,以及引用有关推理时间的相关研究。

业内分析认为,OpenAI如今已不再是一个纯粹的研究实验室,而更像是一家商业公司。因此,虽然它们仍会假装自己是研究机构以招募人才,但实则已然商业化。

### 性能评估与比较

一系列高端基准测试结果显示,o1-preview在公开测试集上超越了GPT-4o,但与Claude 3.5-Sonnet相比,仅有平局。在代码能力的宣传上,开源的结对编程工具团队Aider进行的测试显示,o1在代码重写任务中获得79.7分,领先Claude 3.5-Sonnet的75.2分,但在更实用的代码编辑任务中反而略逊一筹。

与OpenAI合作的“AI程序员”Devin团队测试后发现,o1在解决方案时更倾向于回溯并考虑不同的选项,且更不易出现逻辑错误。这样的表现使Devin在调试bug方面更加高效。

在更注重逻辑推理的Livebench榜单中,尽管o1在单项代码任务上落后,却在总分上超越Claude 3.5-Sonnet,并保持了一定差距。此外,在中文复杂任务高阶推理测试中,o1-preview的推理能力同样显著领先。

### 使用o1时的注意事项

建议在采用o1模型时,考虑以下一些方面:

1. **使用成本高**:1百万输出tokens的费用高达60美元,这让价格回归GPT-3时代。
2. **隐藏的reasoning tokens也计入输出tokens**:虽然不可见,但依然影响到费用。
3. **任务建议**:对于大多数任务来说,最好先使用GPT-4o,只有在发现不够用时再切换至o1,以节省成本。
4. **针对代码任务,优先选择Claude-3.5-Sonnet**。

总之,围绕OpenAI新模型o1,开发者社区仍有许多疑问和意见。尽管o1开启了AI高阶推理的新范式,但其自身尚未完善,如何最大化其价值仍需探索。

### “有问必答”活动的内容总结

在OpenAI刚刚举行的“有问必答”活动中,员工解答了众多疑问。o1的命名被解释为代表AI能力的新层级,重置了原有的计数器。此外,preview版本是o1的早期checkpoint,而mini版则暂不保证近期更新。

关于o1的内部运作机制,OpenAI科学家明确表示,o1并非简单的“模型 + CoT”组合,而是一个原生具备生成思维链能力的训练模型。推理过程中的思维链被隐藏,OpenAI并不计划向用户展示token的详细信息。

在OpenAI持续改进现有产品的情况下,o1的定价问题受到大家的广泛关注,OpenAI表示将遵循每1-2年降价的趋势,同时在使用量限制变得更宽松时,会考虑推出批量API定价。总的来说,o1在性能、稳定性和安全性上正逐步向前推进,尽管仍面临一些挑战。

标签