Theo thông báo chính thức của OpenAI vào ngày 20/6, công ty đã phát hành LifeSciBench, một bộ tiêu chuẩn đánh giá mới nhằm đo lường hiệu suất các hệ thống AI trên các tác vụ nghiên cứu khoa học trong thế giới thực. Bộ tiêu chuẩn bao gồm 750 tác vụ do các chuyên gia viết, trải rộng trên 7 quy trình nghiên cứu và 7 lĩnh vực sinh học, được tạo ra bởi 173 nhà nghiên cứu cấp Ph.D. có kinh nghiệm trong lĩnh vực công nghệ sinh học hoặc công nghiệp dược phẩm.
Hơn 79% số tác vụ yêu cầu suy luận theo nhiều bước, với mức trung bình khoảng 4 bước suy luận cho mỗi câu hỏi. Bộ tiêu chuẩn bao gồm 1.062 tệp dữ liệu nghiên cứu thực như bài báo, biểu đồ, dữ liệu chuỗi và các tệp cấu trúc, nhấn mạnh năng lực nghiên cứu phức tạp bao gồm tích hợp bằng chứng, thiết kế thí nghiệm, phân tích dữ liệu, suy luận khoa học và truyền thông nghiên cứu, thay vì các câu hỏi chỉ cần nắm thông tin đơn thuần.