DeepSeek 数据泄露警报被证实为误报;特殊代币触发的是模型记忆,而非多租户泄露

DEEPSEEK-5.01%

根据 Beating 的监控,最近一则病毒式传播的说法声称,在 DeepSeek 的聊天框中输入诸如 <|begin_of_sentence|> 这样的特殊标记,可能会暴露其他用户的对话,并被归类为 P0 级多租户隔离故障。实际上,这种现象与数据隔离无关。使用这些标记触发后,模型会进入其训练时的格式模式,并基于自身记忆和系统提示生成虚构对话——而不是从其他会话进行实时检索。这就是训练数据提取,这是所有大型语言模型中的共享漏洞,并非 DeepSeek 独有。Google DeepMind 在 2023 年发布的研究表明,特殊输入可以从 GPT 和 PaLM 中提取训练数据。ICLR 2025 的 Magpie 论文直接利用了这种机制。声称泄露内容包含今天日期的说法并不能证明存在多租户隔离故障,因为 DeepSeek 会在其系统提示中包含当前日期,而模型也会自然地将其融入生成输出中。

免责声明:本页面信息可能来自第三方,不代表 Gate 的观点或意见。页面显示的内容仅供参考,不构成任何财务、投资或法律建议。Gate 对信息的准确性、完整性不作保证,对因使用本信息而产生的任何损失不承担责任。虚拟资产投资属高风险行为,价格波动剧烈,您可能损失全部投资本金。请充分了解相关风险,并根据自身财务状况和风险承受能力谨慎决策。具体内容详见声明
评论
0/400
暂无评论