OpenAI lanza LifeSciBench para evaluar la IA en tareas de investigación reales, con 750 elementos redactados por expertos en 7 campos de la biología

Según el anuncio oficial de OpenAI del 20 de junio, la compañía lanzó LifeSciBench, un nuevo punto de evaluación diseñado para evaluar sistemas de IA en tareas reales de investigación científica. El benchmark comprende 750 tareas escritas por expertos, que abarcan 7 flujos de trabajo de investigación y 7 dominios de biología, creadas por 173 investigadores con nivel de doctorado y experiencia en la industria de biotecnología o farmacéutica.

Más del 79% de las tareas requieren razonamiento en múltiples pasos, con un promedio de aproximadamente 4 pasos de razonamiento por pregunta. El benchmark incluye 1.062 adjuntos de datos reales de investigación, como artículos, gráficos, datos de secuencias y archivos estructurales, destacando capacidades complejas de investigación, como integración de evidencia, diseño experimental, análisis de datos, razonamiento científico y comunicación de investigación, en lugar de preguntas simples de hechos.

Aviso legal: La información en esta página puede provenir de fuentes de terceros y es solo para referencia. No representa las opiniones ni puntos de vista de Gate y no constituye asesoramiento financiero, de inversión ni legal. El comercio de activos virtuales implica un alto riesgo. No te bases únicamente en la información presentada en esta página para tomar decisiones. Para más detalles, consulta el Aviso legal.
Comentar
0/400
Sin comentarios