Microsoft відкриває вихідний код моделі Phi-Ground 4B, перевершує OpenAI Operator і Claude за точністю кліків по екрані

За Beating, Microsoft нещодавно відкрито опублікувала у відкритому доступі сімейство моделей Phi-Ground, створених для вирішення проблеми того, куди саме ШІ має клікати на екрані комп’ютера. Версія з 4 мільярдами параметрів у парі з більшими мовними моделями для планування інструкцій перевищила точність кліків OpenAI Operator і Claude Computer Use у бенчмарку Showdown та посіла перше місце серед усіх моделей із менш ніж 100 мільярдами параметрів у п’яти оцінюваннях, зокрема в ScreenSpot-Pro.

Команда навчала модель більш ніж на 40 мільйонах датасетів і з’ясувала, що три поширені техніки тренування, які використовують у наукових статтях, стали неефективними в масштабі. Ключовий підхід виявився простим: виводити координати як звичайні числа, наприклад, "523, 417." Попередні дослідження створювали спеціалізовані словники позицій для координат, але вони не витримали масштабування. Також команда виявила, що розміщення текстових інструкцій перед зображеннями підвищує продуктивність, оскільки моделі могли визначати цілі під час опрацювання пікселів. Крім того, методи підкріплювального навчання на кшталт DPO покращили точність навіть після донавчання.

Застереження: інформація на цій сторінці може походити зі сторонніх джерел і надається виключно для ознайомлення. Вона не відображає позицію чи думку Gate і не є фінансовою, інвестиційною чи юридичною консультацією. Торгівля віртуальними активами пов’язана з високим ризиком. Будь ласка, не покладайтеся лише на інформацію з цієї сторінки під час прийняття рішень. Детальніше дивіться у Застереженні.
Прокоментувати
0/400
Немає коментарів