Natural Language Autoencoders — nova técnica de interpretabilidade da Anthropic
Anthropic: post técnico apresenta NLAs, método que traduz ativações internas do Claude em texto legível.
|
08/05 às 09:00
Pontos principais
- Arquitetura round-trip com verbalizador e reconstrutor de ativações
- Demo interativa publicada no Neuronpedia
- Código de treinamento open-source no GitHub
Mencionado nesta matéria
Organizações
AnthropicNeuronpedia
