OpenAIは、実際の研究タスクに対するAIを評価するためにLifeSciBenchを公開し、生物学7分野にまたがる専門家によって書かれた750件のアイテムで構成しています。

OpenAIの公式発表(6月20日)によると、同社は新しい評価ベンチマークであるLifeSciBenchをリリースしました。これは、現実の科学研究タスクにおいてAIシステムを評価するために設計されたものです。このベンチマークは、7つの研究ワークフローと7つの生物学領域にまたがる、専門家が執筆した750のタスクで構成されており、バイオテックまたは製薬業界での経験を持つ173名の博士課程レベルの研究者によって作成されました。

79%超のタスクは多段階の推論を必要とし、質問あたり平均約4つの推論ステップです。このベンチマークには、論文、チャート、配列データ、構造ファイルなどの実データ添付が1,062件含まれており、単純な事実確認の質問ではなく、証拠の統合、実験設計、データ分析、科学的推論、研究コミュニケーションといった複雑な研究能力を重視しています。

免責事項:本ページの情報には第三者提供の内容が含まれる場合があり、参考目的のみで提供されています。これらはGateの見解や意見を示すものではなく、金融、投資、または法律上の助言を構成するものでもありません。暗号資産取引には高いリスクが伴います。意思決定を行う際には、本ページの情報のみに依存しないでください。詳細については、免責事項をご確認ください。
コメント
0/400
コメントなし