Google Cloud представляет модель Gemini 3.2 Flash Lite с затратами на инференс на 95% ниже, чем у GPT-5.5

Согласно мониторингу Beating.AI, в списке выбора моделей Google Cloud по состоянию на 17 мая появилась новая опция модели под названием gemini-3.2-flash-lite-live-preview. Суффиксы «lite» и «live» указывают на то, что Google создает специализированную версию, оптимизированную для сверхнизкой задержки при интерактивных взаимодействиях в реальном времени.

Ранее генеральный директор Abacus.AI Бинду Редди сообщила, что Gemini 3.2 Flash обеспечивает 92% возможностей кодирования и рассуждений GPT-5.5, при этом затраты на инференс составляют лишь 1/20 от затрат GPT-5.5, а большинство запросов возвращают ответы менее чем за 200 миллисекунд. Ожидается, что этот ориентированный на снижение издержек облегчённый модель будет официально представлен на Google I/O 20 мая.

Дисклеймер: Информация на этой странице может быть получена из источников третьих сторон и предоставляется только для ознакомления. Она не отражает взгляды или мнения Gate и не является финансовой, инвестиционной или юридической рекомендацией. Торговля виртуальными активами связана с высоким риском. Пожалуйста, не основывайте свои решения исключительно на данных этой страницы. Подробнее смотрите в Дисклеймере.
комментарий
0/400
Нет комментариев