За офіційним оголошенням OpenAI від 20 червня компанія випустила LifeSciBench — новий оціночний бенчмарк, призначений для оцінювання ШІ-систем на завданнях реальних наукових досліджень. Бенчмарк складається з 750 експертно написаних завдань, що охоплюють 7 дослідницьких робочих процесів і 7 біологічних доменів; їх створили 173 дослідники рівня Ph.D. із досвідом у біотехнологічній або фармацевтичній індустрії.

Понад 79% завдань потребують багатокрокового міркування, у середньому приблизно 4 кроки міркування на запитання. Бенчмарк містить 1 062 реальні вкладення дослідницьких даних, зокрема статті, діаграми, дані послідовностей і структурні файли, наголошуючи на складних дослідницьких можливостях, таких як інтеграція доказів, експериментальний дизайн, аналіз даних, наукове міркування та дослідницька комунікація, а не на простих відповідях на фактичні запитання.

Переглянути джерело

Застереження: інформація на цій сторінці може походити зі сторонніх джерел і надається виключно для ознайомлення. Вона не відображає позицію чи думку Gate і не є фінансовою, інвестиційною чи юридичною консультацією. Торгівля віртуальними активами пов’язана з високим ризиком. Будь ласка, не покладайтеся лише на інформацію з цієї сторінки під час прийняття рішень. Детальніше дивіться у Застереженні.

Пов’язані новини

06-19 18:22

Час відповіді ChatGPT досягав 60+ хвилин у підозрюваному A/B-тесті GPT-5.6 цього тижня

06-19 15:30

OpenAI випустила LifeSciBench із 750 експертними завданнями для оцінювання ШІ в реальних наукових робочих процесах

06-19 08:21

Perplexity запускає систему пам’яті Brain AI, підвищуючи точність відповідей на 25%

06-19 06:14

OpenAI запускає аналітику використання та елементи контролю витрат для ChatGPT Enterprise

06-17 12:00

Ornn запускає індекси бенчмарків вартості токена для моделей Anthropic і OpenAI

Поглиблений аналіз