Novo benchmark revela que modelos de IA avançados atingem apenas 31,5% de precisão em tarefas complexas de biologia computacional.
A OpenAI apresentou o GeneBench-Pro, um novo benchmark projetado para avaliar a capacidade de agentes de IA em resolver problemas de biologia computacional. Composto por 129 tarefas que exigem julgamento científico de alto nível e manipulação de dados complexos, o teste serve como um medidor rigoroso para o raciocínio avançado das máquinas. Atualmente, especialistas humanos levam entre 20 e 40 horas para concluir cada desafio proposto pela plataforma. O desempenho dos modelos de ponta, que atingiram apenas 31,5% de precisão, destaca as limitações das IAs frente a problemas científicos que demandam raciocínio profundo e especializado. A iniciativa sublinha a necessidade de avanços significativos para que a tecnologia possa atuar com eficácia em ambientes de pesquisa científica real, onde a precisão e a capacidade analítica são fundamentais para o progresso da área.
30 jun, 14:06
25 jun, 06:30
17 jun, 18:04
27 mai, 09:00
26 mai, 20:04
Carregando comentários...