Large Scale Reward Modeling | Jonathan Ward | OpenAI Scholars Demo Day 2021

Jonathan Ward, mentorizado por John Shulman, explora a modelagem de recompensa em larga escala, focando em como os modelos podem aprender o que as pessoas querem. Ele contrasta domínios formais, onde as tarefas são claras (jogos), com domínios informais, onde definir o comportamento correto é mais difícil. O trabalho de Ward se concentra em aprender as preferências humanas, não pela formalização do informal, mas pela coleta de feedback direto de pessoas.

Aprendendo Preferências Humanas

Desafio: Obter feedback de preferências humanas de forma eficiente.
Abordagens Existentes: Trabalhos da OpenAI e DeepMind usam feedback interativo (contratação de pessoas) para construir modelos precisos, mas essa abordagem é cara.
Proposta de Ward: Utilizar feedback disponível diretamente na internet, que é potencialmente mais barato e abundante, podendo ser coletado em diversas tarefas.

Feedback Interativo vs. Feedback da Internet

Feedback Interativo:
- Vantagens: Permite garantir que os fornecedores de feedback (contratados) compartilhem um entendimento comum das preferências desejadas, resultando em um alinhamento mais próximo com o "padrão ouro".
- Desvantagens: Caro e de difícil escalabilidade.
Feedback da Internet:
- Vantagens: Acessível, em grande volume e de baixo custo.
- Desvantagens: Reflete o que já existe online, podendo não corresponder a um "padrão ouro" específico.

Foco em Tarefas Estruturadas no Reddit

Ward foca em feedback orientado a tarefas, diferente de likes genéricos em redes sociais.
Plataforma Escolhida: Reddit, o sétimo site mais popular nos EUA, organizado em subreddits com tarefas e estruturas de feedback específicas.
Estudo de Caso: r/writingprompts, uma comunidade de escritores de contos, onde os usuários respondem a prompts de escrita e recebem upvotes/downvotes, gerando uma pontuação que reflete as preferências agregadas da comunidade.

Modelos Desenvolvidos

Ward treina três modelos interconectados:

Modelo Generativo: Recebe um prompt de escrita e produz uma resposta (análogo a um escritor no subreddit).
Modelo Avaliativo: Recebe um prompt e duas respostas, e determina qual das duas é melhor (análogo a um usuário que dá upvote/downvote).
Modelo Agente (Gameplay Model): Começa com o modelo generativo e é treinado usando o feedback do modelo avaliativo, que atua como um avaliador entre dois agentes competindo.

Resultados e Generalização

Metodologia: Modelos pré-treinados são usados como ponto de partida. O modelo generativo e avaliativo são treinados, e então combinados para criar o agente.
Avaliação: A capacidade do modelo de recompensa de generalizar as preferências humanas é testada em um conjunto de comparações não vistas, após remover variáveis de confusão como duração ou tempo de criação das respostas.
Precisão: O modelo alcançou uma precisão de 74,2% em um conjunto de teste difícil.
Análise da Precisão:
- Existe um ruído inerente nas preferências humanas, especialmente em dados coletados ao longo de 10 anos.
- Modelos maiores (como GPT-2 XL) aprendem mais rápido, mas a precisão satura em torno de 74,2%.
- Ganhos contínuos são observados ao aumentar o número de amostras, especialmente para modelos menores.

Implicações e Direções Futuras

Combinação de Dados: Explorar a combinação de conjuntos de dados de diferentes subreddits para melhorar a generalização.
Transferência de Aprendizado: Treinar um modelo de recompensa em muitas tarefas e testá-lo em uma tarefa não vista, o que se assemelha mais ao uso real de modelos.
Analogia com Pré-treinamento/Fine-tuning: Coletar feedback da internet é análogo ao pré-treinamento em modelos de linguagem, enquanto o feedback interativo (humano) é análogo ao fine-tuning, permitindo um controle mais preciso sobre as preferências capturadas.
Viés e Representatividade: O Reddit não é representativo da população global. Para um modelo que represente um senso geral de "boa história", é crucial equilibrar o conjunto de dados, incluindo pessoas com mais experiência em escrita e diversas influências.
Limitações da Precisão: A precisão de 75% pode ser um teto devido ao ruído nos rótulos, embora modelos maiores possam potencialmente superá-lo. A inclusão de metadados (como o tempo de resposta) pode aumentar a precisão. O futuro envolve equilibrar o feedback da internet com conjuntos de dados de feedback mais curados para mitigar vieses.