OpenAI lança GeneBench-Pro para avaliar modelo...

Pontos principais

O GeneBench-Pro contém 129 problemas realistas de biologia computacional.

Tarefas exigem habilidades de nível de pesquisa e manipulação de dados complexos.

Especialistas humanos levam de 20 a 40 horas para solucionar cada problema do teste.

O melhor modelo de IA atual obteve 31,5% de sucesso, evidenciando limitações técnicas.

A OpenAI apresentou o GeneBench-Pro, um novo benchmark projetado para avaliar a capacidade de agentes de IA em resolver problemas de biologia computacional. Composto por 129 tarefas que exigem julgamento científico de alto nível e manipulação de dados complexos, o teste serve como um medidor rigoroso para o raciocínio avançado das máquinas. Atualmente, especialistas humanos levam entre 20 e 40 horas para concluir cada desafio proposto pela plataforma. O desempenho dos modelos de ponta, que atingiram apenas 31,5% de precisão, destaca as limitações das IAs frente a problemas científicos que demandam raciocínio profundo e especializado. A iniciativa sublinha a necessidade de avanços significativos para que a tecnologia possa atuar com eficácia em ambientes de pesquisa científica real, onde a precisão e a capacidade analítica são fundamentais para o progresso da área.

OpenAI lança GeneBench-Pro para avaliar modelos de IA em biologia

Pontos principais

Tópicos relacionados

Fontes

OpenAI launches GeneBench-Pro to evaluate AI agents on computational biology, with top models scoring under 35%

Leia também