Alerta sobre vazamento de dados da DeepSeek é desmentido; tokens especiais acionam a memória do modelo, não uma violação entre vários tenants

DEEPSEEK-6,53%
De acordo com o monitoramento da Beating, uma alegação viral recente sugeriu que inserir tokens especiais como <|begin_of_sentence|> na caixa de chat do DeepSeek poderia expor as conversas de outros usuários, classificado como uma falha de isolamento multi-tenant no nível P0. Na prática, esse fenômeno não tem relação com isolamento de dados. Quando acionado com esses tokens, o modelo entra nos padrões do formato usados no momento do treinamento e gera um diálogo fabricado com base na própria memória e nos prompts do sistema — e não em uma recuperação em tempo real a partir de outras sessões. Isso é Extração de Dados de Treinamento, uma vulnerabilidade compartilhada por todos os grandes modelos de linguagem, e não exclusiva do DeepSeek. O Google DeepMind publicou pesquisas em 2023 mostrando que entradas especiais podem extrair dados de treinamento do GPT e do PaLM. O artigo Magpie do ICLR 2025 aproveita diretamente esse mecanismo. As alegações de que o conteúdo vazado inclui a data de hoje não comprovam uma falha de isolamento multi-tenant, já que o DeepSeek inclui a data atual no prompt do sistema, e modelos naturalmente a incorporam à saída gerada.
Isenção de responsabilidade: as informações nesta página podem ter origem em fontes terceiras e servem apenas como referência. Não representam as opiniões da Gate e não constituem orientação financeira, de investimentos ou jurídica. A negociação de ativos virtuais envolve alto risco. Não tome decisões baseando-se apenas nas informações desta página. Para mais detalhes, consulte a Isenção de responsabilidade.
Comentário
0/400
Sem comentários