What rebuilding AlphaGo teaches us about self-play, RL, and future of LLMs - Eric Jang

Contexto

Neste episódio, Dwarkesh Patel entrevista Eric Jang, ex-vice-presidente de IA na 1X Technologies e pesquisador no Google DeepMind Robotics. O foco da conversa é o projeto de Jang de reconstruir o AlphaGo do zero durante seu período sabático. O objetivo é utilizar o jogo Go como um "ambiente de brinquedo" (toy environment) para entender melhor o aprendizado por reforço (RL), a busca em árvore (tree search) e como esses conceitos se relacionam com a arquitetura e o futuro dos grandes modelos de linguagem (LLMs).

Pontos Principais

A complexidade do Go: O Go é um jogo de informação perfeita, mas com uma complexidade combinatória imensa (fator de ramificação de 361). A busca exaustiva é impossível, tornando-o um problema clássico de "intratabilidade" que foi resolvido pelo aprendizado profundo.
O papel do MCTS e Redes Neurais: O AlphaGo utiliza o Monte Carlo Tree Search (MCTS) para explorar o futuro do jogo. As redes neurais atuam como "intuição humana", reduzindo a necessidade de busca profunda ao prever a probabilidade de vitória (função de valor) e sugerir movimentos promissores (política), podando a árvore de busca.
Aprendizado por Reforço (RL) e Auto-jogo: O AlphaGo melhora através do auto-jogo. A rede neural aprende a imitar o resultado da busca MCTS. Jang destaca que o MCTS atua como um operador de melhoria: ele gera rótulos (labels) de alta qualidade para ações, permitindo que a rede neural aprenda a "pensar" melhor sem precisar de um sinal de recompensa esparso e ruidoso.
Arquitetura: Jang observou que, para orçamentos de pesquisa menores, redes ResNet superam Transformers devido ao viés indutivo de convoluções locais, embora Transformers sejam superiores para capturar contextos globais se houver dados suficientes.
Scaling Laws e Compute: O custo para treinar sistemas de fronteira diminuiu drasticamente. Jang conseguiu resultados competitivos com cerca de US$ 10 mil em computação, demonstrando que a eficiência de métodos e a disponibilidade de hardware (GPUs modernas) tornam a pesquisa em RL muito mais acessível hoje do que na época do AlphaGo Zero.
Limitações dos LLMs atuais: Jang argumenta que o RL aplicado a LLMs (como o REINFORCE) é ineficiente porque "suga a supervisão através de um canudo". Enquanto o AlphaGo melhora localmente a cada movimento via MCTS, o RL em LLMs muitas vezes exige a conclusão de trajetórias longas para obter um sinal de recompensa, o que aumenta a variância e reduz a eficiência de bits por FLOP.

Implicações

Pesquisa Automatizada: Jang utiliza agentes de IA (via SDK do Cursor) para automatizar o ciclo de pesquisa (execução de experimentos, compilação de gráficos e análise). Ele acredita que a automação da ciência será uma habilidade crítica, mas nota que a IA ainda falha em "pensamento lateral" — saber quando abandonar uma trilha de pesquisa infrutífera.
O Futuro do Raciocínio: Embora o MCTS seja específico para jogos discretos, a ideia de "busca para frente" (forward search) e simulação para avaliar valor pode retornar aos LLMs. O desafio atual é que a linguagem possui um espaço de ações muito mais amplo e menos estruturado que o Go, tornando heurísticas como o PUCT (usado no AlphaGo) menos eficazes.
Transferência de Conhecimento: O uso de ambientes de verificação rápida (como o Go) para treinar agentes de pesquisa pode ser um caminho para desenvolver habilidades de raciocínio que se transferem para domínios mais complexos e economicamente úteis, como a descoberta de fármacos.