使用 ChatGPT 视觉让你的日常生活更轻松的 6 种方法

OpenAI 于 2022 年推出了 ChatGPT,彻底改变了技术世界。ChatGPT是一种对话型人工智能,可用作网络和许多应用程序的插件 API 中的聊天机器人和虚拟助手。您发送提示,ChatGPT 会对其进行响应;您可以问它任何问题,例如本月最热门的书籍系列,或者要求它使用您最喜欢的漫威角色创作一首说唱歌曲。

自首次亮相以来,基于 LLM(大型语言模型)的 AI 的使用也一直是许多话题的焦点。然而,它也使新技术得以发展,软件在许多廉价智能手机和旗舰设备上蓬勃发展。ChatGPT 的出现唤醒了其他顶级科技巨头,他们纷纷将基于 LLM 的 AI 和工具推向公众。一项关键功能是能够转录图像并让它们将其视为文本上的选项。以前,此功能仅供高级用户使用,但 OpenAI 已将其纳入其最新的 GPT 更新中。

ChatGPT 愿景是什么?

如果您熟悉生成式 AI,那么您可能已经听说过 ChatGPT。ChatGPT 始于 2022 年 GPT-3.5 的公开发布,后来又推出了实验性的付费版本 GPT-4。根据OpenAI 于 2023 年发表的论文GPT-4V,该功能“使用户能够指示 GPT-4 分析用户提供的图像输入”。OpenAI 于 2022 年 3 月完成了 GPT-4V 的培训。

GPT-4V 在公开发布之前经历了多次迭代。它经过了测试和分析,以发现虚假信息风险、刻板印象和毫无根据的干扰。开发人员不希望视觉功能被滥用或提供有关安全和敏感话题的错误信息。

如何访问 ChatGPT Vision?

ChatGPT Vision,也称为带视觉的 GPT-4(GPT-4V),最初是作为 ChatGPT Plus 用户的高级功能推出的(每月 20 美元)。OpenAI 已通过 GPT-4o(称为 Omni)将其视觉功能带给所有免费用户。但目前正在分批发布。

免费用户的使用量有限制,但Plus 用户将获得免费套餐五倍以上的使用量。此外,要访问 ChatGPT,用户以前需要注册一个免费帐户。从那时起,OpenAI 改变了政策;任何人都可以开始使用 ChatGPT,而无需创建帐户。但是,拥有帐户仍然有好处。好处包括保存和查看聊天记录以及附加图像。因此,如果您打算使用视觉功能,建议注册一个帐户。

如何使用 ChatGPT 视觉

要开始使用 GPT-4o,请登录chat.openai.com或打开移动应用程序并在出现提示时选择立即试用

从那里,您可以附加计算机上的图片或从找到的图片地址中复制图片地址。ChatGPT 将邀请您提问或在添加图片时直接提问。

ChatGPT 并不完美,它犯了很多错误。在下面的提示中,将三个动漫人物放在一张图片中(图片来源:Screenrant),ChatGPT 错误地猜出了其中一个,这意味着答案只有 66% 是正确的。

它猜测是鸣人、悟空和路飞。但在这张图片中,路飞没有出现。取而代之的是美少女战士。

即使该功能并不完美,您仍然可以将其用于少数与图像相关的应用程序。您可以要求 ChatGPT 告诉您只能从照片中看到的细节(做出有根据的猜测)。下面,我们尝试了一些提示,以查看 ChatGPT 处理这些请求的能力。

使用 GPT-4o 视觉学习食谱

我们将这张图片发送给 ChatGPT-4o,并询问它是否可以根据图像辨别菜谱(所用的原料)和卡路里信息。

ChatGPT 可以辨别出这是一份墨西哥沙拉,并提到了典型的配料。它还根据所用的配料分解了卡路里。答案是:

  • 卡路里: 655
  • 碎牛肉
  • 莴苣
  • 樱桃番茄
  • 奶酪丝
  • 玉米片或多力多滋
  • 黑豆或斑豆
  • 莎莎酱或类似调料

根据Food.com 的一位用户的说法,真正的答案是:

  • 卡路里:855.3
  • 碎牛肉
  • 塔可调味料
  • 冰山生菜,切碎
  • 罗马番茄,切丁
  • 葱,切碎
  • 红芸豆或黑豆沥干
  • 大黑橄榄,切片
  • 切达干酪,切碎
  • 卡塔利娜调料
  • 原味多力多滋玉米脆片,弄碎成大块

虽然配料的答案比预期的更笼统,但它仍然提供了该物品的大致信息和预期的卡路里数。卡路里会根据酱汁和份量大小而变化,很难从照片中猜出。

使用 GPT-4o 视觉将手写笔记转录为文本

转录书面笔记需要花费大量时间,尤其是当你希望以数字形式保留副本时。ChatGPT 愿景的一个很酷的功能是要求 AI 将手写文本图像重写为打字笔记。

我们要求 ChatGPT 发送幻灯片的文本版本:

ChatGPT 的回答:

结果令人印象深刻,甚至连手写符号都能识别。人工智能可以识别英语以外的符号,比如写净电荷。

使用 GPT-4o 视觉解决验证码

验证码通过创建扭曲且难以辨别的图像(通常由字母和数字组成)来帮助过滤机器人。但是,解决验证码有时会很棘手。我们测试了您是否可以从 ChatGPT 获得帮助来解决验证码。

我们在 Cloudflare 的学习页面上提取了一个验证码的示例。

我们询问 ChatGPT 能否提供图片中的字符(没有提到它有字母和数字)。结果并不准确。ChatGPT 回答“v6T9JBCD”。AI 认为字母“v”在图片中是可以理解的,因为图片中的波浪线呈“v”形,但令人惊讶的是,字母“S”根本没有被考虑。

GPT Vision 还能做什么?

上传图片并要求 ChatGPT 解释、分析和回答您的问题只是其功能的一部分。您还可以要求 AI 根据描述和指定指令生成图片。例如,您可以截取图片的屏幕截图并询问它应该是什么样子,或者要求 ChatGPT 使用 Dall-E 3 从头开始​​生成图片。

ChatGPT 的视觉功能还可以解释多种图像集。通常,我们并没有完美的图片,有些图片既包含文字也包含插图。您可以使用 ChatGPT 来解释信息图并向其提问。甚至可以要求它重现信息图,以便您更好地理解它。

它还可以为您的日常生活提供帮助;您可以拍摄照片或视频,将其上传到人工智能并寻求帮助。当操作物体并且说明使用另一种语言时,它会变得非常方便。

具有视觉的 ChatGPT 仍在学习中

只有当我们向 AI 提供更多视觉数据时,它才能不断进步。我们提出的照片和问题越多,AI 就能更好地真实、一致地解释它们。这类似于训练人类大脑:我们接触不同主题的次数越多,我们处理这些主题的能力就越强(并且能力越强)。您可以将这些原则应用于机器学习。

在2024 年 5 月的更新中,OpenAI 解释了其对 ChatGPT 视觉学习的计划。最终,他们希望用户能够使用实时视频与 AI 交谈,并改进其语音模式功能,以便您可以更自然地直接与 AI 交谈。如果您对 AI 仍然感兴趣,您可以尝试 Google Play Store 上的一些令人印象深刻的应用程序。

标签