BBC 将禁止 ChatGPT 从其网站抓取数据

superadmin 6 月 28, 2024 297 0

BBC 国家事务总监 Rhodri Talfan Davies最近在一篇博文中表示： “我们认为，目前未经我们许可‘抓取’BBC 数据以训练 Gen AI 模型的行为不符合公众利益。”他表示，BBC 已采取措施，阻止 Open AI 和 Common Crawl 等网络爬虫访问其网站。

由此，BBC 与《纽约时报》、CNN、路透社、澳大利亚广播公司（ABC）等其他新闻媒体一道，阻止 OpenAI 的网络爬虫访问其网站。

目前，OpenAI 的生成式 AI 工具 ChatGPT 的版权问题已是众所周知。许多专家解释说，抓取公共数据用于训练 AI 工具存在道德问题，因为数据的作者通常可能没有对数据的使用给予知情且有意义的同意。

虽然其他组织（如作家协会和Getty Images）已经寻求法律补救措施来保护其创意作品免受版权侵犯，但新闻平台采取了另一种方法，即限制 OpenAI 对其内容的访问。这种方法能否成功还有待观察，因为交叉发布到其他网站或联合平台上的内容最终仍会被网络爬虫发现。

ChatGPT中文网页版

除了声明不允许网络爬虫在其网站上工作外，戴维斯还概述了 BBC 在生成式人工智能方面的工作的三项原则：

将以公众的最大利益为出发点：他表示，公司将探索如何为观众带来更大的价值。与此同时，他解释说，BBC 还将尝试缓解生成式人工智能带来的挑战，“包括对媒体的信任、版权保护和内容发现”。他说，BBC 将与科技公司、媒体运营商和监管机构合作，“倡导生成式人工智能发展的安全性和透明度，并防止社会危害”。

将优先考虑人才和创造力：戴维斯表示，BBC 将与记者、作家和广播员合作，探索如何使用生成式人工智能。他保证，公司“在使用生成式人工智能时将始终考虑艺术家和版权持有者的权利”。

开放透明：他提到，当生成式人工智能输出成为其内容和服务的一部分时，公司将对观众保持透明。他解释说，BBC 永远不会在其输出中完全依赖人工智能生成的研究。

戴维斯表示，该公司打算在多个项目中使用生成式人工智能。“这些项目将评估生成式人工智能如何潜在地支持、补充甚至改变 BBC 在新闻研究和制作、内容发现和存档等一系列领域的活动，”他解释道。

近期文章