OpenAIの公式発表(6月20日)によると、同社は新しい評価ベンチマークであるLifeSciBenchをリリースしました。これは、現実の科学研究タスクにおいてAIシステムを評価するために設計されたものです。このベンチマークは、7つの研究ワークフローと7つの生物学領域にまたがる、専門家が執筆した750のタスクで構成されており、バイオテックまたは製薬業界での経験を持つ173名の博士課程レベルの研究者によって作成されました。
79%超のタスクは多段階の推論を必要とし、質問あたり平均約4つの推論ステップです。このベンチマークには、論文、チャート、配列データ、構造ファイルなどの実データ添付が1,062件含まれており、単純な事実確認の質問ではなく、証拠の統合、実験設計、データ分析、科学的推論、研究コミュニケーションといった複雑な研究能力を重視しています。