OpenAI 推出 CriticGPT:一款用于捕捉 AI 错误的 AI
OpenAI 开发了一个名为 CriticGPT 的新 AI,它可以发现 ChatGPT 和其他 AI 模型编写的代码中的错误。它使用从人类反馈 (RLHF) 中获取的强化学习进行训练,并已证明它在识别代码问题方面比人类审阅者表现更好。完整的论文值得一读。
CriticGPT 基于 GPT-4 架构,以通俗易懂的语言撰写有关代码问题的反馈。它在发现错误方面的表现优于人类审阅者 – 对于真正的编码错误,63% 的情况下人们更喜欢它的批评,而不是 ChatGPT 的批评。
(左)与人工对存在人为插入错误的代码进行模型输出评论相比,注释者 更喜欢 ChatGPT 和 CriticGPT 评论。 (右)在撰写评论时,ChatGPT 和 CriticGPT 都能比人工承包商捕获更多的插入错误
CriticGPT 解决了一个日益严重的问题:随着 ChatGPT 等模型变得越来越智能,人类越来越难以发现它们的错误。这使得通过 RLHF 持续改进 AI 行为变得困难。
它解决了人工智能代码生成中的一大难题:ChatGPT 等高级 LLM 产生的细微而复杂的错误。随着这些模型变得越来越复杂,它们的错误越来越难以发现。即使是专家也很难发现错误。
ChatGPT中文网页版
那么它是如何工作的呢?CriticGPT 经过训练可以撰写批评意见,突出 ChatGPT 代码输出中的不准确之处。人类训练员手动将错误插入 ChatGPT 编写的代码中,然后编写示例反馈,就好像他们发现了这些错误一样。CriticGPT 学会了捕捉这些错误,极大地帮助了人类训练员完成他们的审查任务。
当人类与 CriticGPT 合作时,他们撰写的评论比人类或 AI 单独撰写的评论更好。这些团队还避免了像 AI 单独工作那样频繁地编造假问题。在测试中,其他评论者在 60% 以上的时间里选择来自人类-AI 团队的评论,而不是来自单个人类的评论。
为了训练 CriticGPT,OpenAI 让人们故意在 ChatGPT 的代码中添加错误,然后写下反馈,就好像他们自然而然地发现了这些错误一样。这创建了一个已知错误的数据集来教导人工智能。
OpenAI 还开发了一种方法,以平衡 CriticGPT 反馈的全面性和准确性。这让他们能够生成更长、更详细的评论,同时在发现真实问题和想象虚假问题之间取得平衡。
CriticGPT 并不完美。它主要从短代码中学习,因此处理较长、复杂的任务仍然是一项挑战。它有时会编造出本来不存在的问题,这可能会误导人类审阅者。
OpenAI 计划开始使用类似 CriticGPT 的工具来帮助其人类训练师评估 AI 输出。这是朝着建立更好的方法来评估高级 AI 系统迈出的关键一步,这些系统可能过于复杂,人类无法自行判断。
随着人工智能变得越来越强大,我们需要更智能的方式来评估它并与人类目标保持一致。CriticGPT 展示了人工智能本身如何帮助解决这一问题,有可能使未来的人工智能系统更安全、更可靠。
好啦,今天就到这里,如果你也想在体验ChatGPT4.0
具有GPT4对话、DALL·E3绘画、GPT4V看图助手。
可以点击下方红色链接进行使用。