O Futuro da Informação

Natural Language Autoencoders — nova técnica de interpretabilidade da Anthropic

Anthropic: post técnico apresenta NLAs, método que traduz ativações internas do Claude em texto legível.

|

08/05 às 09:00

Pontos principais

Arquitetura round-trip com verbalizador e reconstrutor de ativações
Demo interativa publicada no Neuronpedia
Código de treinamento open-source no GitHub

Mencionado nesta matéria

Organizações

AnthropicNeuronpedia

Faz parte de

Anthropic revela técnica que converte pensamentos internos de IA em texto legível

8 mai, 09:00 • Daily Journal

Fonte

Ver matéria original

Anthropic • 8 mai, 09:00