De acordo com o anúncio oficial da OpenAI em 20 de junho, a empresa lançou o LifeSciBench, um novo benchmark de avaliação projetado para medir sistemas de IA em tarefas reais de pesquisa científica. O benchmark reúne 750 tarefas escritas por especialistas, abrangendo 7 fluxos de trabalho de pesquisa e 7 domínios de biologia, criadas por 173 pesquisadores com nível de Ph.D., com experiência na indústria de biotecnologia ou farmacêutica.
Mais de 79% das tarefas exigem raciocínio em múltiplas etapas, com média de aproximadamente 4 etapas de raciocínio por pergunta. O benchmark inclui 1.062 anexos reais de dados de pesquisa, como artigos, gráficos, dados de sequenciamento e arquivos estruturais, com foco em capacidades complexas de pesquisa, incluindo integração de evidências, desenho experimental, análise de dados, raciocínio científico e comunicação de pesquisa — em vez de perguntas factuais simples.