OpenAI выпустила LifeSciBench для оценки ИИ на реальных исследовательских задачах: набор из 750 материалов, написанных экспертами, по 7 направлениям биологии

20 июня, согласно официальному объявлению OpenAI, компания выпустила LifeSciBench — новый оценочный бенчмарк, предназначенный для проверки ИИ-систем на реальных задачах из научных исследований. Бенчмарк включает 750 задач, написанных экспертами, и охватывает 7 исследовательских рабочих процессов и 7 биологических областей; он создан 173 исследователями на уровне Ph.D. с опытом в биотехнологической или фармацевтической отрасли.

Более 79% задач требуют многошагового рассуждения, в среднем примерно по 4 шагa рассуждений на вопрос. В бенчмарк входят 1 062 реальных вложения с данными исследований, такие как статьи, графики, последовательностные данные и структурные файлы. Он акцентирует сложные исследовательские возможности, включая интеграцию доказательств, экспериментальный дизайн, анализ данных, научное рассуждение и исследовательскую коммуникацию, а не простые вопросы на факты.

Дисклеймер: Информация на этой странице может быть получена из источников третьих сторон и предоставляется только для ознакомления. Она не отражает взгляды или мнения Gate и не является финансовой, инвестиционной или юридической рекомендацией. Торговля виртуальными активами связана с высоким риском. Пожалуйста, не основывайте свои решения исключительно на данных этой страницы. Подробнее смотрите в Дисклеймере.
комментарий
0/400
Нет комментариев