AI模型训练数据藏隐患?DeepSeek近2万条敏感信息遭曝光

最新分析发现,在公开爬取的网络数据中,DeepSeek 的 11908 条 API 密钥、密码及身份验证令牌遭到曝光。

据网络安全公司 Truffle Security 披露,这一研究凸显了 AI 模型在未经筛选的互联网数据训练下,可能会内化并复现不安全的编码模式。

此前已有研究表明,大型语言模型(LLM)常建议在代码中硬编码凭据,这引发了关于训练数据如何影响开发实践的讨论。

Truffle Security 通过扫描 Common Crawl 2024 年 12 月的数据集(约 400TB 数据,覆盖 47.5 万个网站、26.7 亿个网页),利用其开源工具 TruffleHog 发现:

  • 11,908 条有效凭据,可用于访问 AWS、Slack、Mailchimp 等服务;
  • 276 万个网页含有暴露的凭据,其中63%的密钥被多个域名重复使用;
  • WalkScore API 密钥在1,871 个子域上重复57,029 次,暴露范围极广。

特别值得注意的是,部分数据集涉及高风险暴露,例如:

  • AWS 根密钥直接嵌入前端 HTML 代码;
  • 同一网页的聊天功能中硬编码了17 个独特的 Slack webhook。

Mailchimp API 密钥泄露尤为严重,超1,500 例,且大多直接嵌入客户端 JavaScript 代码,这种做法不仅助长了网络钓鱼攻击,也增加了数据泄露风险。

Common Crawl 的数据集包含90,000 份 WARC 文件,存储了网站爬取的HTML、JavaScript 及服务器响应数据

Truffle Security 使用20 节点 AWS 集群处理这些存档,借助 awk 拆分文件,并通过 TruffleHog 逐一验证密钥是否仍然有效。该工具能区分有效凭据(可用于服务认证)和无效字符串——这是 LLM 训练时无法做到的关键步骤。

研究团队在分析过程中面临基础设施挑战:WARC 数据流式处理效率低,初期严重拖慢分析进度,而 AWS 优化后下载速度提升了5-6 倍

尽管面临技术难题,研究团队仍秉持负责任的披露原则,与 Mailchimp 等供应商合作,撤销了数千条泄露的密钥,避免了逐个联系网站所有者的低效通知方式。

这一研究揭示了一项重大安全隐患:基于公开数据训练的 LLM 可能继承其中的不安全模式。尽管 DeepSeek 采用额外的安全防护措施(如微调、对齐技术和提示限制),但硬编码凭据的广泛存在,使得不安全实践易于被模型学习并传播。

此外,非功能性凭据(如占位符令牌)也加剧了问题,因为 LLM 在代码生成时无法识别其有效性。

Truffle Security 警告,在多个客户端项目中重复使用 API 密钥会带来极大风险。例如,一家软件公司因在多个客户域名间共享 Mailchimp 密钥,导致所有关联账户均面临攻击风险。

为减少 AI 生成代码中的安全漏洞,Truffle Security 建议:

  • 在 AI 编码工具中引入安全防护措施,如 GitHub Copilot 的自定义指令,以强制执行禁止硬编码密钥的政策;
  • 扩展密钥扫描范围,涵盖存档的网络数据,以减少历史泄露数据进入 LLM 训练集的风险;
  • 采用“宪法 AI”技术,使 LLM 生成代码时更符合安全最佳实践,降低敏感信息的无意泄露。

随着 LLM 在软件开发中的影响力持续上升,确保训练数据的安全性已不再是可选项,而是构建安全数字未来的基础

转载请注明出处@安全威胁纵横,封面由ChatGPT生成;

来源:安全威胁纵横,原文:https://cybersecuritynews.com/deepseek-data-leak-api-keys-and-passwords/

相关新闻

联系我们

联系我们

18055100335

在线咨询:点击这里给我发消息

邮件:support@anyong.net

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信
关注微信
SHARE
TOP