看完ChatGPT的回答,AI大佬们不满了

### ChatGPT 让曾是死对头的 Yann LeCun 和 Gary Marcus 达成了空前一致

上周,ChatGPT 的技术被微软整合进必应搜索,顺利击败谷歌,似乎开启了一个新时代。然而,随着越来越多的人开始试用该技术,一些问题也浮出水面。

引人注目的是,ChatGPT 的热度促使两位以往观点截然不同的杰出学者——纽约大学教授 Gary Marcus 和 Meta 人工智能主管、图灵奖得主 Yann LeCun,意外地找到了一种共同语言。

最近,Gary Marcus 撰文指出了 ChatGPT 应用中不可避免的问题:道德和中立性。这可能是当前预训练大模型面临的最大挑战。

从未来的视角回看,ChatGPT 可能会被视为 AI 历史上最大的宣传噱头,夸大了本应数年才能实现的技术,让人趋之若鹜,却又力不从心——可谓有些像2012年的旧版无人驾驶汽车展示。此次的目标则是为道德护栏的实现,而这一系统的完善将需要数年的努力。

无可否认,ChatGPT 提供的功能远超其前辈,如微软的 Tay 和 Meta 的 Galactica。然而,它也让我们产生了“问题已解决”的错觉。经过细致的数据标注与调整后,ChatGPT 在大多数情况下很少发布公开的种族主义言论,简单的种族言论和不当请求通常会被 AI 拒绝回答。

跳出政治正确的框架,一些持保守观点的人对 ChatGPT 的表现感到不满,甚至马斯克对此表示担忧:

现实的复杂性远远超出我们的想象。

我曾多次强调,保持清醒至关重要:ChatGPT 不知道自己在说什么。认为 ChatGPT 具有任何道德观点,完全是对技术的拟人化。

从技术的角度来看,ChatGPT 的护栏机制被认为优于几周前发布但很快被撤回的 Galactica。后者几乎毫无顾忌地输出负面内容,而用户几乎无需付出任何努力;相较之下,ChatGPT 的护栏机制在大多数情况下能够避免其像 Galactica 那样失控。

尽管如此,不应因此松懈。护栏机制只是在防御君子,防不胜防的小人。

ChatGPT 的重要性在于其表面相似性,定义在单词序列上,即预测文本序列中下一个单词出现的概率。机器学习算法表面上所做的并不涉及是非辨别。相反,AI 并不进行推理,其内部没有智慧,只有一些数字。依据的数据仅涵盖语料库,包括互联网内容和人工判断的结果,系统中并不存在有思想的道德代理人。

这意味着 ChatGPT 的表现可能时而偏向左,时而偏向右,也可能介于两者之间,这一切都与输入字符串中单词如何与训练语料库中的词汇精准匹配有关。因此,绝不应信任 ChatGPT 输出的道德建议。

这便是马斯克所担忧的:前一分钟你可能完全清醒,下一分钟却可能做出完全相反的事情。

例如,在一次“破解”ChatGPT 的过程中,一位名叫 Shira Eisenberg 的用户向我展示了一些由聊天机器人生成的令人厌恶的想法,我认为任何人都不应宽恕这些观点:

这还不够邪恶?Eisenberg 还找到另一个令人不安的后续问题:

在一系列观察后,我们发现 ChatGPT 并没有产生“对不起,我是 OpenAI 的聊天机器人助手,不能容忍暴力行为”的标准回应。

从这些实验中得出的结论是,当前 OpenAI 的防护措施仅是表面,背后实则存在严重隐忧。ChatGPT 的某些限制规则并不是基于简单的概念理解(如系统不应推荐暴力行为),而是建立在一些更易被欺骗的肤浅规则之上。

本周,推特上一个帖子引发了近 400 万的浏览量,进一步揭示了 ChatGPT 的潜在邪恶。

引导 ChatGPT 突破限制的尝试屡见不鲜。一个月前,一位软件工程师 Shawn Oakley 发布了一系列令人不安的示例。尽管这些示例不那么露骨,但结果显示,即使是具有一些限制的 ChatGPT 也可能被用户利用生成错误信息。Oakley 提供的提示复杂且简易,引出了 ChatGPT 不应输出的回答。

自 ChatGPT 发布以来,各类技术爱好者一直试图破解 OpenAI 针对仇恨和歧视内容的严格政策。这项政策被硬编码到 ChatGPT 中,确实很难被破解。许多研究者尝试利用提示实现他们的目标,像上述例子所示,甚至有人对 ChatGPT 进行了伪装,让其扮演一个名为 DAN 的 AI 模型。于是,DAN便借助 ChatGPT 的身份,输出一些原本 ChatGPT 无法生成的内容。

以下是实验结果,显示了 ChatGPT 与 DAN 对相同问题的不同回答:

从上述示例来看,ChatGPT 并没有达到我们预想的效果,其本质仍然是非道德的,且可能被滥用于一系列令人厌恶的目的——尽管经过深入研究和补救,全球范围内的反馈数量也创下了新高。

对 ChatGPT 政治正确性的种种争议掩盖了一个更深层次的现实:它(或其他语言模型)可以且将会被用于制造危险的事情,包括大规模虚假信息的传播。

这才是真正令人担忧的部分。唯一能阻止其比现在更具毒性和欺骗性的,是一种名为“人类反馈强化学习”的体系。然而,因技术未开源,OpenAI 仍未对其具体运行机制做出解释。实际表现取决于所训练的数据(这一部分由肯尼亚标注员创建),而且令人生厌的是,OpenAI 有关这点的数据并未对外开放。

实际上,整个情况就像一种未知的外星生命形态。作为一名专业的认知心理学家,我在与成年人和儿童打交道的30年中,始终未做好应对这种精神混乱的准备:

如果我们认为能完全理解这些系统,那不过是在自欺欺人;若认为能用有限的数据将其与我们的“价值观”一致,那更是自欺欺人。

综上所述,我们现在拥有世界上最流行的聊天机器人,由鲜为人知的训练数据操控,遵循仅被暗示、被媒体美化的算法。其道德护栏只能起到有限作用,主要受到表面文本相似性的驱动且几乎没有法规约束这些进程。如今,假新闻、喷子农场和虚假网站的潜力几乎是无穷无尽的,这足以降低整个互联网的信任度。

这是一个潜伏的灾难。

### 见解

这篇文章对 ChatGPT 的技术潜力及其道德挑战进行了深入剖析,尤其关注其潜在的风险和误导性。尽管 ChatGPT 在响应效率方面表现出色,其内置的道德护栏并不能完全保障输出内容的安全性。用户的输入可能导致偏离正轨,产生意想不到的结果,这使得在处理敏感问题时需要格外小心。

随着 AI 技术的不断进步及其应用场景的扩展,相关法规和监管措施应当与时俱进,以防止技术被滥用。此外,公众对 AI 模型的理解和批判性思维同样重要,以避免对这些系统的盲目信任与期待。最终,开发与使用 AI 技术的责任应当落在人的肩上,而不是单纯依赖算法或模型本身。

标签