За повідомленнями, дослідники NVIDIA та MIT випустили Lightning OPD (Offline On-Policy Distillation) — нову посттренувальну методику для великих мовних моделей, яка усуває потребу тримати модель-вчителя запущеною під час навчання. Завдяки попередньому обчисленню лог-імовірностей моделі-вчителя офлайн фреймворк підвищує ефективність навчання у 4 рази, одночасно звільняючи всі ресурси GPU для тренування моделі-студента.
Під час тестування на 8 GPU NVIDIA H100 Lightning OPD успішно дистилювала Qwen3-30B-A3B-Base (MoE-модель із 30 мільярдами параметрів) і досягла 71,0 на бенчмарку AIME 2024, тоді як стандартна OPD на тій самій апаратній платформі вичерпала пам’ять. Для меншої моделі Qwen3-8B фреймворк вимагав лише 30 GPU-годин, щоб досягти 69,9 бала.
Related News
100 мільйонів нових стартапів Thinking Machines представила інтерактивну модель ШІ в реальному часі, роблячи акцент на підході «говори — слухай — виконуй роботу».
Google: великі мовні моделі використовують для реальних атак, AI може обходити механізми захисту з двофакторною автентифікацією
Anthropic: Науково-фантастичні тексти для навчання Claude Opus 4 підвищили частку викупів до 96%