Daily Journal
Daily Journal

Natural Language Autoencoders — nova técnica de interpretabilidade da Anthropic

Anthropic: post técnico apresenta NLAs, método que traduz ativações internas do Claude em texto legível.

Daily Journal
|
08/05 às 09:00

Pontos principais

  • Arquitetura round-trip com verbalizador e reconstrutor de ativações
  • Demo interativa publicada no Neuronpedia
  • Código de treinamento open-source no GitHub

Mencionado nesta matéria

Organizações

AnthropicNeuronpedia