OpenAI Meluncurkan LifeSciBench untuk Mengevaluasi AI pada Tugas Riset Nyata, Terdiri dari 750 Item yang Ditulis oleh Para Ahli di 7 Bidang Biologi

Berdasarkan pengumuman resmi OpenAI pada 20 Juni, perusahaan merilis LifeSciBench, tolok ukur evaluasi baru yang dirancang untuk menilai sistem AI pada tugas riset ilmiah dunia nyata. Tolok ukur ini terdiri dari 750 tugas yang ditulis oleh para ahli, mencakup 7 alur kerja riset dan 7 domain biologi, dibuat oleh 173 peneliti bergelar Ph.D. dengan pengalaman di industri bioteknologi atau farmasi.

Lebih dari 79% tugas memerlukan penalaran bertahap, dengan rata-rata sekitar 4 langkah penalaran per pertanyaan. Tolok ukur ini mencakup 1.062 lampiran data riset nyata seperti paper, grafik, data sekuens, dan berkas struktural, yang menekankan kapabilitas riset kompleks termasuk integrasi bukti, perancangan eksperimen, analisis data, penalaran ilmiah, dan komunikasi riset—bukan pertanyaan faktual sederhana.

Penafian: Informasi di halaman ini mungkin berasal dari sumber pihak ketiga dan hanya untuk referensi. Ini tidak mewakili pandangan atau pendapat Gate dan bukan merupakan nasihat keuangan, investasi, atau hukum. Perdagangan aset virtual melibatkan risiko tinggi. Mohon jangan hanya mengandalkan informasi di halaman ini saat membuat keputusan. Untuk detailnya, lihat Penafian.
Komentar
0/400
Tidak ada komentar