OpenAI 發布 LifeSciBench,以評估 AI 在真實研究任務上的表現,內容包含 7 個生物學領域中共 750 筆由專家撰寫的項目

根據 OpenAI 於 6 月 20 日的官方公告,公司發布 LifeSciBench,一個新的評估基準,旨在衡量 AI 系統在真實世界科學研究任務上的表現。該基準包含 750 個由專家撰寫的任務,涵蓋 7 種研究工作流程與 7 個生物學領域;這些任務由 173 位具備生技或製藥產業經驗、博士層級的研究人員所打造。

超過 79% 的任務需要多步推理,平均每題約 4 步推理。該基準包含 1,062 個真實研究資料附件,例如論文、圖表、序列資料與結構檔案,強調複雜的研究能力,包括證據整合、實驗設計、資料分析、科學推理與研究溝通,而非單純的事實問答。

免責聲明:本頁面資訊可能來自第三方來源,僅供參考,不代表 Gate 的立場或觀點,亦不構成任何財務、投資或法律建議。虛擬資產交易具有高風險,請勿僅依賴本頁資訊作出決策。詳情請參閱 免責聲明
回覆
0/400
暫無回覆