Alerta de fuga de dados do DeepSeek desmentido; tokens especiais acionam a memória do modelo, não uma violação multi-inquilino

DEEPSEEK-10,08%
De acordo com a monitorização da Beating, uma recente alegação viral sugeriu que, ao inserir tokens especiais como <|begin_of_sentence|> na caixa de chat da DeepSeek, poderia expor as conversas de outros utilizadores, identificado como uma falha crítica de isolamento multi-tenant (nível P0). Na realidade, este fenómeno não tem relação com o isolamento de dados. Quando é acionado com esses tokens, o modelo entra nos padrões de formatação do período de treino e gera um diálogo fabricado com base na sua própria memória e nos prompts do sistema — não numa recuperação em tempo real a partir de outras sessões. Isto é Training Data Extraction, uma vulnerabilidade partilhada por todos os grandes modelos de linguagem, e não algo exclusivo da DeepSeek. A Google DeepMind publicou, em 2023, investigação demonstrando que entradas especiais podem extrair dados de treino do GPT e do PaLM. O artigo Magpie da ICLR 2025 aproveita diretamente este mecanismo. As alegações de que o conteúdo vazado inclui a data de hoje não provam uma falha de isolamento multi-tenant, uma vez que a DeepSeek inclui a data atual no seu prompt do sistema e os modelos naturalmente a incorporam na saída gerada.
Aviso legal: As informações contidas nesta página podem provir de fontes externas e têm caráter meramente informativo. Não refletem os pontos de vista nem as opiniões da Gate e não constituem qualquer tipo de aconselhamento financeiro, de investimento ou jurídico. A negociação de ativos virtuais envolve um risco elevado. Não se baseie exclusivamente nas informações contidas nesta página ao tomar decisões. Para mais detalhes, consulte o Aviso legal.
Comentar
0/400
Nenhum comentário