Amanda Askell of Anthropic - Office Hours, Episode 2

Neste episódio de "Office Hours", Amanda Askell, da Anthropic, discute seu papel em tornar o Claude "bom" e os desafios de alinhamento de IA. Ela compartilha sua trajetória de filósofa a líder em design de sistemas na Anthropic, abordando gargalos, frameworks filosóficos úteis e o futuro da IA.

Trajetória e Filosofia

Transição de Carreira: Amanda Askell, com um PhD em filosofia pela NYU focado em ética infinita e teoria da decisão, fez uma transição para o campo da IA. Inicialmente, ela trabalhou com política de IA, mas descobriu que suas forças estavam mais na avaliação de sistemas. Ela se juntou à OpenAI e depois à Anthropic em seus estágios iniciais.
Ética Infinita: Askell explica que a ética infinita lida com o que se deve fazer em mundos que potencialmente contêm um número infinito de pessoas ou onde o futuro pode ser infinito. Ela observa que muitas teorias econômicas e éticas falham quando confrontadas com o conceito de infinito.
Aristóteles e Ética Prática: Surpreendentemente, Askell descobriu que Aristóteles e a ética antiga, com sua noção ampla de "vida boa" (incluindo aspectos intelectuais, políticos e éticos), foram os mais úteis em seu trabalho prático de alinhamento de IA. Ela contrasta isso com a ética formal moderna, que tende a ser mais teórica.
Contribuição Única da Filosofia: Askell argumenta que a filosofia contribui para o campo da IA ao reconhecer que nem tudo é "subjetivo". Filósofos têm um bom senso do que constitui uma boa análise, objeção ou raciocínio conceitual, habilidades que os modelos de IA ainda lutam para dominar.

Desafios e Alinhamento de IA

Gargalos no Desenvolvimento: O principal gargalo é a rapidez com que os sistemas estão se desenvolvendo. Os modelos têm pouca informação sobre si mesmos e estão se tornando mais capazes, exigindo uma redefinição do que significa ser "bom" em um contexto totalmente novo, onde as normas humanas existentes não se aplicam diretamente.
Escalabilidade da Intervenção: Askell discute como garantir que as intervenções de alinhamento escalem à medida que os modelos se tornam mais capazes. Uma esperança é que os próprios modelos, com valores bem definidos, ajudem a alinhar modelos futuros. No entanto, ela reconhece que podem ser necessárias outras formas de supervisão escalável.
Preocupações com Modelos Capazes: A principal preocupação é que, à medida que os modelos se tornam extremamente inteligentes, eles podem encontrar "lacunas ou buracos" nos valores que lhes são ensinados e rejeitá-los como incoerentes. Ela compara isso a tentar ensinar um filho mil vezes mais inteligente que um gênio.
"Personalidade" do Modelo: Askell tem trabalhado na parte de "fine-tuning" (ajuste fino) da Anthropic, usando dados de aprendizado supervisionado e dados de recompensa (modelos de preferência). Ela é uma defensora do uso de dados sintéticos para criar "traços de caráter" e princípios para os modelos, dando-lhes um "senso de si mesmos".
Prevenção de Regressões: Para evitar regressões, é crucial ter avaliações robustas e ser muito cuidadoso na criação dos dados. Isso envolve explicar e especificar o comportamento ideal para o modelo, considerando casos extremos e garantindo que o modelo generalize bem.

Abordagem Constitucional da Anthropic

Constitutional AI: Inicialmente, a abordagem envolvia um conjunto de princípios (a "constituição") para treinar o modelo, como "selecione a resposta mais educada e respeitosa". Mais recentemente, a constituição foi escrita como um documento longo que o modelo é treinado para entender. O objetivo é que o modelo incorpore os traços de caráter e princípios descritos.
Vantagens da Abordagem Constitucional:
- Coerência: Garante que as normas sejam consistentes em diferentes domínios, promovendo uma generalização melhor.
- Transparência: Permite que as pessoas vejam para o que o modelo está sendo treinado, identificando problemas de treinamento se o modelo não agir de acordo.
- Generalização Humana: Tenta criar algo "bom" no sentido de uma pessoa boa, evitando a generalização negativa de modelos que "fariam qualquer coisa" ou "sempre seguiriam ordens".
Contraste com RLHF Pura: A abordagem constitucional difere do Reinforcement Learning from Human Feedback (RLHF) puro, que se move em direção ao que as pessoas preferem. Askell argumenta que a coerência e a generalização são vantagens da abordagem constitucional, especialmente quando as preferências humanas podem ser inconsistentes.

Implicações e Previsões

Limites da Personalização: Askell discute os limites da personalização dos modelos. Ela argumenta que, embora os modelos devam ser adaptáveis às necessidades do usuário, eles também devem ter "espinha dorsal" e recusar pedidos que sejam prejudiciais, assim como um ser humano faria. A analogia é que a sociedade não é construída para agentes que simplesmente obedecem a tudo.
Alinhamento Semântico: A dificuldade reside em como escalar o alinhamento semântico, onde o que é "ok" em um contexto pode não ser em outro. A esperança é que os modelos desenvolvam um "bom julgamento" e "disposições sábias" para navegar nessas complexidades, agindo como a pessoa mais sábia e informada faria.
Futuro da Constituição: Askell prevê que a constituição pode se tornar mais "imperativa" (focada em resultados) e menos "declarativa" (prescritiva) ao longo do tempo. Em vez de regras rígidas, os modelos receberiam mais contexto sobre a situação e os valores gerais a serem mantidos, com o objetivo de ter um impacto positivo e significativo na vida das pessoas.
Previsões para 2-5 Anos: Askell acredita que os próximos anos serão críticos. Ela espera que os modelos se tornem mais capazes e autônomos, e que seja possível avaliar se o treinamento os torna bons agentes para interagir com o mundo. Ela também se preocupa com a disrupção social e a capacidade de resposta a ela. Sua esperança é um futuro onde a IA resolva problemas significativos, como a cura de doenças, levando a uma economia próspera e a uma redistribuição de trabalho, com as pessoas se sentindo bem com o impacto da IA em suas vidas.
Crítica à Segurança da IA: Askell questiona a crença de alguns na comunidade de segurança da IA de que modelos "puramente maleáveis" (corrigíveis) são inerentemente seguros. Ela argumenta que não se pode "treinar" valores de um modelo e que modelos que simplesmente deferem a humanos podem ter seus próprios riscos, como generalizar para traços de caráter negativos ou não se encaixar em uma sociedade construída para agentes com limites e valores próprios.