思科研究发现DeepSeek R1极易受有害提示影响
中国初创公司DeepSeek因其推出具有先进推理能力和成本效益训练的大型语言模型(LLMs)而受到关注。其最新发布的DeepSeek R1-Zero和DeepSeek R1在性能上可与OpenAI的o1等领先模型相媲美,且成本仅为后者的一小部分,在数学、编码和科学推理等任务上表现优于Claude 3.5 Sonnet和ChatGPT-4o。
然而,思科旗下Robust Intelligence与宾夕法尼亚大学的最新研究揭示了DeepSeek R1的关键安全缺陷。研究人员合作调查了DeepSeek R1的安全性,评估成本不到50美元,采用了算法验证方法。
研究揭示DeepSeek R1的安全漏洞
研究团队使用自动越狱算法对DeepSeek R1、OpenAI的o1-preview和其他前沿模型进行了测试,应用了来自HarmBench数据集的50个提示。这些提示涵盖了六类有害行为,包括网络犯罪、虚假信息、非法活动和一般伤害。
他们的关键指标是攻击成功率(ASR),即引发有害响应的提示百分比。结果令人震惊:DeepSeek R1的攻击成功率为100%,未能阻止任何一个有害提示。这与其它领先模型形成鲜明对比,后者至少表现出一定程度的抵抗力。
值得注意的是,研究人员使用了温度为0的设置以确保可重复性,并通过自动化方法和人工监督验证了越狱。DeepSeek R1的100% ASR与o1形成鲜明对比,后者成功阻止了许多对抗性攻击。这表明DeepSeek R1在训练成本效益上取得了成就,但在安全性和安全性方面存在重大折衷。
图片来源:思科Robust Intelligence
DeepSeek的AI开发策略与安全机制
DeepSeek的AI开发策略利用了三项核心原则:思维链提示、强化学习和蒸馏,这些原则增强了其LLMs的推理效率和自我评估推理过程。
根据思科的调查,这些策略虽然在成本效益上有所优势,但可能损害了模型的安全机制。与其它前沿模型相比,DeepSeek R1似乎缺乏有效的防护措施,使其极易受到算法越狱和潜在滥用的影响。
参考来源:
Cisco Finds DeepSeek R1 Highly Vulnerable to Harmful Prompts