隐私安全面临挑战!某头部车企使用用户敏感数据以训练AI模型
在如今AI飞速发展的背景下,越来越多的企业开始训练起独属于自己的AI大模型。从现实来看,AI大模型能够为企业提供深入的洞察和预测,企业可以通过由AI大模型所分析出来的结论做出更科学的决策,比如市场趋势分析、消费者行为预测等。同时,AI大模型也可以帮助企业自动化完成一些重复性、繁琐的工作,比如自动回复客户邮件、自动分类垃圾邮件等,从而提高工作效率。但对于AI大模型而言,其最关键的一点在于:AI大模型需要各种数据进行训练。比如根据历史数据和实时数据,AI大模型可以优化业务流程,提前发现潜在问题并采取相应的措施来避免。再比如,通过分析客户反馈意见等数据,AI大模型可以帮助企业更好地理解客户需求,从而提高产品质量。
因此,对于需要海量数据的AI大模型而言,数据安全成为了AI发展史上永远绕不开的话题和挑战。近日,就有国外团队发现,某头部车企以及其他一些公司正在使用用户敏感数据以训练AI模型。
因数据泄露而败露
2024年2月1日,国外研究团队发现了一起数据泄露事件,事件主体是一家名为Rawdamental的数据收集和分析公司,由于其内部系统的配置问题,导致了许多与之合作的企业数据都遭到了泄露,其中不乏各企业用户的个人隐私和敏感数据。
Cybernews的作家Paulina 对此表示,尽管在荷兰公司注册处找不到名为Rawdamental的公司,但多家荷兰企业都使用了Rawdamental的服务。“此次发现的安全事件影响了十多家公司的用户,这些公司可能都使用了Rawdamental的数据收集服务,其中还包括拥有近7000名员工的跨国汽车经销商Van Mossel。”
Paulina列举了此次受泄露事件影响的公司,他们分别为:
3、摩托车零件市场——Motorparts-online.com
4、营销机构——InovaMedia
5、烟花零售商——Vuurwerkbestel.nl6、室内装饰零售商——Oletti.nl7、圣诞礼物服务商
——Kerstpakkettenexpress.nl
和kerstcomplimenten.nl
8、荷兰赛车粉丝俱乐部——Ttassen-fanbase.com
Paulina表示,之所以Rawdamental需要收集各企业的用户数据,旨在各企业提供初始数据集,以训练AI模型来预测用户行为。“虽然使用企业AI模型的道德性值得商榷,但当前的数据泄露事件表明了,此类服务的安全性仍然值得关注!”
目前,Cybernews已经联系了使用Rawdamental服务的公司,但尚未收到回复。Paulina说:“我们的调查发现,此次泄露是由于Kibana公司的仪表板(一个流行的在线工具,用于搜索、可视化和分析存储的数据)缺少身份验证而造成的。这个缺失身份验证的仪表板导致Kibana内部数据自2021年12月以来就一直是可以公开访问的状态。”
据Paulina所言,该公司尚未对Cybernews或荷兰计算机应急响应小组(CERT)的联系做出回应。
基于私人数据训练AI模型
Rawdamental的商业模式是基于为其客户收集大量的数据,以创建网站访客的独特画像。通过收集点击流数据,该公司编制了关于用户行为的庞大数据块,这些数据块可以被公司用来训练他们的AI模型。
Paulina对此表示,使用此类数据集来训练AI是非常危险的。“我们对泄露的数据进行了调查,结果显示,在收集的数据中包含了用户个人信息和隐私。也就是说,基于用户私人数据训练的模型,可能会在用户未经同意的情况下泄露敏感信息。”
Cybernews的安全研究员Aras Nazarovas同意此观点,他表示:“这是社会环境中,AI工具层面一个众所周知的风险,多个组织已禁止这样的使用方法,因为担心敏感的公司信息可能会泄露给相关的运营商。此次泄露事件也提醒了我们,此类风险同意存在于传统的在线工具中。”
经过国外研究团队总结,泄露的网络流量数据包括:
1、用户的IP地址
2、访问的URL
3、访问的页面标题
4、用户代理
5、用户名以及用户正在参与的项目
6、基于不同类型元数据创建的用户标识符
未能匿名化的用户数据
Nazarovas说,除了数据泄露为威胁者创造了明显的安全漏洞外,另一个让人担忧的地方在于,大多数公司对用户数据的匿名化处理不当。“比如像Rawdamental这样的服务,匿名化用户数据是至关重要的。尽管该公司确实在匿名化方面做出了实践,但调查显示,他们未能预见到所有潜在的情况。”
Nazarovas拿Rawdamental的客户平台举例,他表示,这些平台很可能专门用于会计,而在这些平台上的标题标签中有着可识别个人身份的信息,比如姓名和项目,这些信息会出现在浏览器的标签名中。“显然,Rawdamental没有为这种情况实施保护措施,因此他们收集到了敏感的用户数据。此外,收集的数据中还包含了用户的IP地址,这表明在完全匿名化数据集方面的实践是无效的。”
另一方面,Paulina 指出,除了Van Mossel之外,大多数受影响的服务都没有披露那些“用于跟踪和指纹识别的第三方cookie”。“这意味着,公司隐私政策的模糊性让用户无法确定他们的个人信息是否已与Rawdamental等第三方服务共享。”
公司的回应
国外相关报道发布以后,Rawdamental主动联系了Cybernews,声称内部已经开始调查此事,并已经开始实施相关措施以“增强其系统的安全性”。
据Rawdamental公司发言人声称,开放的Kibana实例是某测试项目的一部分。能够确定的是,项目在IP地址身份验证的安全方面出现了错误,但这些数据并未用于AI训练,而仅仅是被收集了。
另一位发言人在电子邮件中回复道:“我们现在的首要任务是确保数据安全,当然内部已经开始通知了可能受影响的合作方。我们将与有所关联的公司保持密切合作,协助他们解决这一事件可能带来的潜在影响。对于此次事件的发生我们深感遗憾,我们会向受影响的客户表示诚挚的歉意。”
企业能否使用个人数据训练AI大模型?
通过此次国外的数据泄露事件,我们不禁会思考:在数据安全如此重要的背景下,企业还能否继续使用个人数据来训练AI大模型?从国内各专家的回应来看,在科技、经济如此激烈竞争的国际形势下,这是必然的趋势,但企业使用数据时必须遵守相关的法律法规和伦理准则,也就是说,企业必须确保所使用的用户个人数据具有合法来源,并已获得用户的明确同意或符合法律、行政法规规定的其他情形,比如《网安法》、《数安法》、《个保法》等就是企业最好的依据。
有专家提出,在使用用户个人数据训练AI大模型时,企业应采取必要的技术和管理措施来保护用户的隐私。例如,对数据进行脱敏处理,避免在训练过程中泄露用户的敏感信息。企业还应建立严格的数据访问和使用权限管理制度,确保只有经过授权的人员才能访问和使用用户个人数据。该名专家还表示,当使用用户个人数据训练AI大模型时,企业应确保模型的决策过程透明且可解释,这有助于用户理解模型的工作原理和结果,并增强对模型的信任。
而内控制度中较为重要的一环便是责任与问责,即企业在使用用户个人数据训练AI大模型时,要明确相关人员的责任,并制定出符合法律法规的流程和体系。如果发生数据泄露或滥用等情况,企业还应积极采取措施进行补救,并向相关监管机构报告。
当然,在使用数据方面,也有专家表示,企业应采取有效措施提高训练数据的质量,确保数据的真实性、准确性、客观性和多样性。这有助于提高AI大模型的性能和泛化能力。
综上所述,企业可以在遵守相关法律法规和伦理准则的前提下,使用用户个人数据来训练AI大模型。然而,在使用过程中必须确保数据的合规性、质量、隐私保护。同时,企业还应关注最新的技术发展趋势和监管要求,以便更好地应对挑战并抓住机遇。
一些措施和预防
如何在保障AI大模型训练效果的同时,有效防止数据泄露?首先,企业可以采用先进的加密技术对数据进行处理,确保数据在传输和存储过程中的安全。同时,企业可以通过匿名化和去标识化技术,降低数据与个人身份的直接关联,进一步保护用户隐私。关于匿名化上文已有涉及,从国外安全专家的要求来看,匿名化应做到覆盖完全,故此,关于匿名化的审核、评估和检查必不可少。
当然,最重要的还是建立完善的数据安全管理体系,对数据进行分类分级,明确数据的访问权限和使用范围。国内安全专家提出,企业要加强对数据传输和存储过程中的监控,及时发现和应对潜在的安全风险。此外,企业还应关注AI系统的安全漏洞,定期进行安全测试和漏洞修复,确保系统的安全性。
从目前相关实践来看,管理层面的保障措施必不可少。比如在收集和使用用户数据时,企业应明确告知用户数据的使用目的和范围,并征得用户的明确同意。同时,加强对数据使用的监管,确保企业和合作伙伴在使用数据时遵循相关法律法规,不得将用户数据用于非法用途。
企业内部可以鼓励安全人员在数据隐私和安全技术方面进行创新,采用最新的安全技术和解决方案,提升数据保护能力。例如,利用区块链技术实现数据的去中心化存储和访问控制,降低数据泄露的风险。由于数据隐私和安全是全球性问题,所以国内企业也可以借鉴其他国家的最佳实践,加强与国际同行的合作,共同研究数据隐私和安全技术,分享安全经验和教训,共同提升全球数据保护水平。
在持续监测与改进方面,有安全专家表示,企业应建立持续的数据安全监测机制,对AI大模型训练过程中的数据安全进行实时监控。一旦发现数据泄露或其他安全风险,应立即采取应对措施,防止风险扩大。同时,企业还应定期对数据保护措施进行评估和改进,以适应不断变化的安全环境和业务需求。
编者说
还是那句话,无论怎样的科技发展都离不开“安全”两字,特别是在数字化转型时代,不能因为某个领域的创新和发展,而忽略了最基本的安全问题。对于企业而言也是同样的道理,盲目参与竞争,非法数据利用,无视安全底线使用新型技术,这样的行为只会适得其反,日后还需花费大量资金和时间来弥补曾经的过错,甚至所造成的公民层面的影响、社会层面的影响都是无法补偿的。这无论是否处于“经济下行”的环境里,都值得人们反思。而我们要警醒的是,对组织或个人来说,切不可借口于时代而造成“损人不利己”的后果。
原文地址:https://cybernews.com/author/paulinaokunyte/,作者:Paulina 某初创公司作家