根据 Beating 的监控,最近一则病毒式传播的说法声称,在 DeepSeek 的聊天框中输入诸如 <|begin_of_sentence|> 这样的特殊标记,可能会暴露其他用户的对话,并被归类为 P0 级多租户隔离故障。实际上,这种现象与数据隔离无关。使用这些标记触发后,模型会进入其训练时的格式模式,并基于自身记忆和系统提示生成虚构对话——而不是从其他会话进行实时检索。这就是训练数据提取,这是所有大型语言模型中的共享漏洞,并非 DeepSeek 独有。Google DeepMind 在 2023 年发布的研究表明,特殊输入可以从 GPT 和 PaLM 中提取训练数据。ICLR 2025 的 Magpie 论文直接利用了这种机制。声称泄露内容包含今天日期的说法并不能证明存在多租户隔离故障,因为 DeepSeek 会在其系统提示中包含当前日期,而模型也会自然地将其融入生成输出中。
相关快讯