Сигнал тривоги про витік даних DeepSeek спростовано; спеціальні токени запускають збереження пам’яті моделі, а не міжорендне порушення

За моніторингом Beating нещодавній вірусний меседж стверджував, що введення спеціальних токенів на кшталт <|begin_of_sentence|> у вікно чату DeepSeek може розкрити розмови інших користувачів, що називають P0-рівнем збоєм ізоляції в багатокористувацькому середовищі (multi-tenant). Насправді це явище не пов’язане з ізоляцією даних. Якщо спровокувати такими токенами, модель переходить до форматних патернів, що використовуються під час тренування, і генерує вигаданий діалог на основі власної пам’яті та системних підказок, а не через отримання даних у реальному часі з інших сесій. Це Training Data Extraction — спільна вразливість для всіх великих мовних моделей, а не щось унікальне для DeepSeek. У 2023 році Google DeepMind опублікувала дослідження, яке показує, що спеціальні вхідні дані можуть витягувати навчальні дані з GPT і PaLM. Робота ICLR 2025 Magpie безпосередньо використовує цей механізм. Заяви про те, що витеклий контент містить сьогоднішню дату, не доводять збій ізоляції в багатокористувацькому середовищі, оскільки DeepSeek включає поточну дату в свій системний промпт, і моделі природно вбудовують її у згенерований вивід.
Застереження: інформація на цій сторінці може походити зі сторонніх джерел і надається виключно для ознайомлення. Вона не відображає позицію чи думку Gate і не є фінансовою, інвестиційною чи юридичною консультацією. Торгівля віртуальними активами пов’язана з високим ризиком. Будь ласка, не покладайтеся лише на інформацію з цієї сторінки під час прийняття рішень. Детальніше дивіться у Застереженні.
Прокоментувати
0/400
Немає коментарів