940百科知识

首页  文章资讯  其它资讯

文章资讯

欧洲的数据隐私方法对GPT和DALL-E意味着什么?

2022-09-22 15:09:33其它资讯131
全球人工智能的爆炸式增长加剧了对处理数据隐私和所有权的常识、以人为本的方法的需求。引领潮流的是欧洲的通用数据保护条例(GDPR),但在现代市场中,不仅仅是个人身份信息(PII

全球人工智能的爆炸式增长加剧了对处理数据隐私和所有权的常识、以人为本的方法的需求。引领潮流的是欧洲的通用数据保护条例(GDPR),但在现代市场中,不仅仅是个人身份信息(PII)受到威胁。

我们生成的内容和艺术数据呢?复制别人的作品然后作为自己的作品呈现当然是不合法的。但是有些人工智能系统试图从网络上尽可能多地抓取人工生成的内容,以生成相似的内容。

GDPR或任何其他以欧盟为中心的政策能否保护此类内容?事实证明,就像机器学习世界中的大多数事情一样,它取决于数据。

欧洲的数据隐私方法对GPT和DALL-E意味着什么

隐私与所有权

GDPR的主要目的是保护欧洲公民免受与滥用、滥用或利用其私人信息有关的有害行为和后果。在保护知识产权(IP)方面,它对公民(或组织)没有多大用处。

不幸的是,据我们所知,为保护知识产权而制定的政策和法规无法涵盖数据抓取和匿名化。这使得在抓取网络内容时很难准确理解法规的适用范围。

这些技术以及他们获得的数据用于创建海量数据库,用于训练大型AI模型,例如OpenAI的GPT-3和DALL-E2系统。

教人工智能模仿人类的唯一方法是将其暴露于人类生成的数据中。你在AI系统中推送的数据越多,它的输出就越稳健。

它的工作原理是这样的:想象你画了一朵花,然后把它贴到艺术家的在线论坛上。使用抓取技术,一家科技公司可以将您的图像与数十亿其他图像一起吸收,这样它就可以创建一个庞大的艺术品数据集。下次有人要求AI生成“花”的图像时,您的作品将出现在AI对提示的解释中的可能性大于零。

至于这种使用是否合乎道德,仍然是一个悬而未决的问题。

公共数据与PII

虽然在保护私人信息和赋予欧洲人删除权方面,GDPR的监管可以说是影响深远的,但它似乎对保护内容不被窃取几乎无能为力。然而,这并不意味着GDPR和其他欧盟法规在这方面是完全无效的。

个人和组织必须遵循非常具体的规则来抓取PII,以免触犯法律——这可能会变得非常昂贵。

例如,ClearviewAI(一家通过抓取社交媒体数据为政府使用建立面部识别数据库的公司)在欧洲开展业务几乎是不可能的。来自至少七个国家的欧盟监管机构已经对公司拒绝遵守GDPR和类似法规开出巨额罚款或建议罚款。

在光谱的另一端,谷歌、OpenAI和Meta等公司直接或通过为许多AI模型购买或使用抓取的数据集来采用类似的数据抓取做法,而不会产生任何影响。而且,虽然大型科技公司在欧洲面临相当多的罚款,但很少有违规行为涉及数据抓取。

为什么不禁止刮痧?

从表面上看,刮擦似乎是一种很有可能被滥用而不是彻底禁止的做法。但是,对于许多依赖抓取的组织而言,获取的数据不一定是“内容”或“PII”,而是可以为公众服务的信息。

我们联系了英国负责处理数据隐私的机构信息专员办公室(ICO),以了解他们如何监管抓取技术和互联网规模的数据集,并了解为什么不要过度监管如此重要。

ICO的一位发言人告诉TNW:

使用公开信息可以带来许多好处,从研究到开发新产品、服务和创新——包括在人工智能领域。但是,如果此信息是个人数据,请务必了解适用数据保护法。无论用于收集数据的技术是否涉及抓取或其他任何东西,情况都是如此。

换句话说,它更多的是关于正在使用的数据类型,而不是它是如何收集的。

无论您是从Facebook个人资料中复制粘贴图像,还是使用机器学习在网络上抓取已标记的图像,如果您在未经人脸参与的人同意的情况下构建面部识别引擎,您都可能违反GDPR和其他欧洲隐私法规它的数据库。

但是,只要您将其匿名或确保数据集中没有PII,从互联网上抓取大量数据通常是可以接受的。

更多灰色地带

然而,即使在允许的用例中,仍然存在一些涉及私人信息的灰色区域。

例如,众所周知,GPT-2和GPT-3偶尔会以地址、电话号码和其他信息的形式输出PII,这些信息显然是通过大规模训练数据集嵌入到其语料库中的。

在这里,很明显GPT-2和GPT-3背后的公司正在采取措施缓解这种情况,而GDPR和类似法规正在发挥作用。

简而言之,我们可以选择不训练大型AI模型,也可以让训练它们的公司有机会探索边缘案例并尝试减轻担忧。

可能需要的是GDUR,即通用数据使用法规,它可以为如何在大型数据集中合法使用人工生成的内容提供明确的指导方针。

至少,似乎值得讨论一下欧洲公民是否应该有权将他们创建的内容从数据集中删除,就像他们的自拍和个人资料照片一样。

目前,在英国和整个欧洲其他地区,删除权似乎只适用于我们的PII。我们放在网上的任何东西都可能最终出现在某些AI的训练数据集中。