Anthropic revela BioMysteryBench para testar as habilidades de bioinformática do Claude contra especialistas humanos e afirma que Mythos resolveu ~30% de 23 questões que confundiram especialistas

A Anthropic lançou o BioMysteryBench para avaliar a capacidade de bioinformática do seu modelo Claude, revelando que o Mythos conseguiu resolver cerca de 30% das questões que desafiaram especialistas humanos.

30/04 às 02:55

Pontos principais

A Anthropic apresentou o BioMysteryBench, uma nova ferramenta de benchmark.
O BioMysteryBench foi criado para testar as habilidades de bioinformática do modelo de IA Claude.
Os resultados comparam o desempenho do Claude com o de especialistas humanos.
O modelo Mythos da Anthropic resolveu aproximadamente 30% de 23 questões.
Essas questões haviam sido consideradas insolúveis por especialistas.

Mencionado nesta matéria

Pessoas

Brianna (pesquisadora da equipe de descoberta)

Organizações

Anthropic

Faz parte de

Anthropic lança BioMysteryBench para testar Claude em bioinformática

30 abr, 03:06 • Daily Journal

Fonte

Ver matéria original

Techmeme • 30 abr, 02:55