Anthropic revela BioMysteryBench para testar as habilidades de bioinformática do Claude contra especialistas humanos e afirma que Mythos resolveu ~30% de 23 questões que confundiram especialistas
A Anthropic lançou o BioMysteryBench para avaliar a capacidade de bioinformática do seu modelo Claude, revelando que o Mythos conseguiu resolver cerca de 30% das questões que desafiaram especialistas humanos.
|
30/04 às 02:55
Pontos principais
- A Anthropic apresentou o BioMysteryBench, uma nova ferramenta de benchmark.
- O BioMysteryBench foi criado para testar as habilidades de bioinformática do modelo de IA Claude.
- Os resultados comparam o desempenho do Claude com o de especialistas humanos.
- O modelo Mythos da Anthropic resolveu aproximadamente 30% de 23 questões.
- Essas questões haviam sido consideradas insolúveis por especialistas.
Mencionado nesta matéria
Pessoas
Brianna (pesquisadora da equipe de descoberta)
Organizações
Anthropic

