Daily Journal

O Futuro da Informação

Daily Journal

Anthropic revela BioMysteryBench para testar as habilidades de bioinformática do Claude contra especialistas humanos e afirma que Mythos resolveu ~30% de 23 questões que confundiram especialistas

A Anthropic lançou o BioMysteryBench para avaliar a capacidade de bioinformática do seu modelo Claude, revelando que o Mythos conseguiu resolver cerca de 30% das questões que desafiaram especialistas humanos.

Daily Journal
|
30/04 às 02:55

Pontos principais

  • A Anthropic apresentou o BioMysteryBench, uma nova ferramenta de benchmark.
  • O BioMysteryBench foi criado para testar as habilidades de bioinformática do modelo de IA Claude.
  • Os resultados comparam o desempenho do Claude com o de especialistas humanos.
  • O modelo Mythos da Anthropic resolveu aproximadamente 30% de 23 questões.
  • Essas questões haviam sido consideradas insolúveis por especialistas.

Mencionado nesta matéria

Pessoas

Brianna (pesquisadora da equipe de descoberta)

Organizações

Anthropic