个人数据被公开!大量车辆与驾驶数据被用来训练AI大模型
Cybernews 网站消息,比荷卢经济联盟(Benelux)最大的汽车经销商 Van Mossel 和多家公司使用了一家不知名的数据分析公司的服务来训练人工智能模型,结果将客户数据泄露到了互联网上。
2 月 1 日,Cybernews 研究团队在数据收集和分析公司 Rawdamental 的系统中发现了一个令人担忧的错误配置,导致个人数据泄露。
尽管 Rawdamental 没有在荷兰公司登记册中找到,但其服务已被众多荷兰公司使用。此次发现的安全事件影响了可能使用数据收集服务的 10 家公司的用户,其中包括拥有近 7000 名员工的跨国汽车经销商 Van Mossel。
受泄漏影响的公司
- 汽车经销商 – Van Mossel
- 软件公司 – Simpul.nl 和 Divtag.nl
- 摩托车零部件市场 – Motorparts-online.com
- 营销机构 – InovaMedia
- 烟花零售商 – Vuurwerkbestel.nl
- 室内装饰零售商 – Oletti.nl
- 圣诞礼物服务 – Kerstpakkettenexpress.nl 和 kerstcomplimenten.nl
- 荷兰赛车迷俱乐部 – Ttassen-fanbase.com
收集用户数据的目的是为 Rawdamental 的客户提供一个起始数据集,用于训练人工智能模型来预测用户行为。暂不论使用企业人工智能模型是否符合道德规范,但目前的数据泄露事件表明,此类服务的安全性仍然非常模糊。
Cybernews 联系了使用 Rawdamental 服务的公司,但尚未得到回应。据调查,泄漏是由于 Rawdamental 公司的 Kibana 面板(一种用于搜索、可视化和分析存储数据的流行在线工具)上的身份验证缺失造成的。认证缺失未被察觉,导致数据自 2021 年 12 月起被公开访问。
Cybernews 和荷兰计算机应急响应小组(CERT)试图与 Rawdamental 公司取得联系,但该公司均未回应。此后,研究人员注意到该公司已经关闭了这一实例。
在私有数据上训练人工智能模型
不过,使用此类数据集来训练人工智能是危险的。Cybernews 对泄露的流量数据的调查显示,收集到的数据中有用户的私人信息,在私人数据上训练出来的模型可能会在未经用户同意的情况下泄露敏感信息。
这是工作场所种使用人工智能工具众所周知的风险,多个组织已经禁止使用这些工具,因为他们担心敏感的公司信息可能会泄露给工具的运营商。Cybernews 的安全研究员 Aras Nazarovas 说:「这次泄露也提醒我们,传统在线工具中也存在这种风险。」
泄露的网络流量包括:
- 用户 IP 地址
- 访问的 URL
- 访问过的网页标题
- 用户代理
- 在某些情况下,用户名和他们正在进行的项目
- 根据不同类型的元数据创建的唯一用户标识符
无法匿名化用户数据
除了明显的网络安全漏洞导致数据泄露,并为威胁行为者提供了一个数据库外,另一个主要问题是公司对用户数据的匿名化处理不力。
对于像 Rawdamental 这样的服务公司来说,匿名化用户数据至关重要。Cybernews 的安全研究员 Nazarovas 表示,尽管 Rawdamental 有意对用户数据进行匿名处理,但调查显示,他们未能预见到所有可能出现的情况。
其中一个例子涉及该公司的客户平台,这些平台很可能专门用于会计工作。一些平台在网站的标题标签中显示个人身份信息,如姓名和项目,这些标签会出现在浏览器的标签名称中。
Rawdamental 没有针对这种情况实施保护措施,因此收集到了敏感的用户数据。此外,用户 IP 地址也出现在收集到的数据中,这表明数据集也没有完全匿名化。
除 Van Mossel 外,大多数受影响的公司都没有披露用于跟踪和指纹识别目的的第三方 cookies。公司隐私政策的模糊性让用户不清楚自己的个人信息是否会被 Rawdamental 等第三方服务共享。
相关链接推荐
文章来源:FreeBuf