Daily Journal

O Futuro da Informação

Large Scale Reward Modeling | Jonathan Ward | OpenAI Scholars Demo Day 2021

OpenAI10 de maio de 202114minVer no YouTube

Jonathan Ward, mentorizado por John Shulman, explora a modelagem de recompensa em larga escala, focando em como os modelos podem aprender o que as pessoas querem. Ele contrasta domínios formais, onde as tarefas são claras (jogos), com domínios informais, onde definir o comportamento correto é mais difícil. O trabalho de Ward se concentra em aprender as preferências humanas, não pela formalização do informal, mas pela coleta de feedback direto de pessoas.

Aprendendo Preferências Humanas

  • Desafio: Obter feedback de preferências humanas de forma eficiente.
  • Abordagens Existentes: Trabalhos da OpenAI e DeepMind usam feedback interativo (contratação de pessoas) para construir modelos precisos, mas essa abordagem é cara.
  • Proposta de Ward: Utilizar feedback disponível diretamente na internet, que é potencialmente mais barato e abundante, podendo ser coletado em diversas tarefas.

Feedback Interativo vs. Feedback da Internet

  • Feedback Interativo:
    • Vantagens: Permite garantir que os fornecedores de feedback (contratados) compartilhem um entendimento comum das preferências desejadas, resultando em um alinhamento mais próximo com o "padrão ouro".
    • Desvantagens: Caro e de difícil escalabilidade.
  • Feedback da Internet:
    • Vantagens: Acessível, em grande volume e de baixo custo.
    • Desvantagens: Reflete o que já existe online, podendo não corresponder a um "padrão ouro" específico.

Foco em Tarefas Estruturadas no Reddit

  • Ward foca em feedback orientado a tarefas, diferente de likes genéricos em redes sociais.
  • Plataforma Escolhida: Reddit, o sétimo site mais popular nos EUA, organizado em subreddits com tarefas e estruturas de feedback específicas.
  • Estudo de Caso: r/writingprompts, uma comunidade de escritores de contos, onde os usuários respondem a prompts de escrita e recebem upvotes/downvotes, gerando uma pontuação que reflete as preferências agregadas da comunidade.

Modelos Desenvolvidos

Ward treina três modelos interconectados:

  1. Modelo Generativo: Recebe um prompt de escrita e produz uma resposta (análogo a um escritor no subreddit).
  2. Modelo Avaliativo: Recebe um prompt e duas respostas, e determina qual das duas é melhor (análogo a um usuário que dá upvote/downvote).
  3. Modelo Agente (Gameplay Model): Começa com o modelo generativo e é treinado usando o feedback do modelo avaliativo, que atua como um avaliador entre dois agentes competindo.

Resultados e Generalização

  • Metodologia: Modelos pré-treinados são usados como ponto de partida. O modelo generativo e avaliativo são treinados, e então combinados para criar o agente.
  • Avaliação: A capacidade do modelo de recompensa de generalizar as preferências humanas é testada em um conjunto de comparações não vistas, após remover variáveis de confusão como duração ou tempo de criação das respostas.
  • Precisão: O modelo alcançou uma precisão de 74,2% em um conjunto de teste difícil.
  • Análise da Precisão:
    • Existe um ruído inerente nas preferências humanas, especialmente em dados coletados ao longo de 10 anos.
    • Modelos maiores (como GPT-2 XL) aprendem mais rápido, mas a precisão satura em torno de 74,2%.
    • Ganhos contínuos são observados ao aumentar o número de amostras, especialmente para modelos menores.

Implicações e Direções Futuras

  • Combinação de Dados: Explorar a combinação de conjuntos de dados de diferentes subreddits para melhorar a generalização.
  • Transferência de Aprendizado: Treinar um modelo de recompensa em muitas tarefas e testá-lo em uma tarefa não vista, o que se assemelha mais ao uso real de modelos.
  • Analogia com Pré-treinamento/Fine-tuning: Coletar feedback da internet é análogo ao pré-treinamento em modelos de linguagem, enquanto o feedback interativo (humano) é análogo ao fine-tuning, permitindo um controle mais preciso sobre as preferências capturadas.
  • Viés e Representatividade: O Reddit não é representativo da população global. Para um modelo que represente um senso geral de "boa história", é crucial equilibrar o conjunto de dados, incluindo pessoas com mais experiência em escrita e diversas influências.
  • Limitações da Precisão: A precisão de 75% pode ser um teto devido ao ruído nos rótulos, embora modelos maiores possam potencialmente superá-lo. A inclusão de metadados (como o tempo de resposta) pode aumentar a precisão. O futuro envolve equilibrar o feedback da internet com conjuntos de dados de feedback mais curados para mitigar vieses.