Berdasarkan pengumuman resmi OpenAI pada 20 Juni, perusahaan merilis LifeSciBench, tolok ukur evaluasi baru yang dirancang untuk menilai sistem AI pada tugas riset ilmiah dunia nyata. Tolok ukur ini terdiri dari 750 tugas yang ditulis oleh para ahli, mencakup 7 alur kerja riset dan 7 domain biologi, dibuat oleh 173 peneliti bergelar Ph.D. dengan pengalaman di industri bioteknologi atau farmasi.
Lebih dari 79% tugas memerlukan penalaran bertahap, dengan rata-rata sekitar 4 langkah penalaran per pertanyaan. Tolok ukur ini mencakup 1.062 lampiran data riset nyata seperti paper, grafik, data sekuens, dan berkas struktural, yang menekankan kapabilitas riset kompleks termasuk integrasi bukti, perancangan eksperimen, analisis data, penalaran ilmiah, dan komunikasi riset—bukan pertanyaan faktual sederhana.