Richard Sutton - Daily Journal

Visão geral

Richard Stuart Sutton é um renomado cientista da computação canadense, professor na Universidade de Alberta e pesquisador científico na Keen Technologies. Ele é amplamente reconhecido como um dos fundadores do aprendizado por reforço computacional moderno, uma área fundamental da inteligência artificial (IA). Suas contribuições incluem o desenvolvimento do aprendizado por diferença temporal e métodos de gradiente de política. Em 2024, Sutton foi agraciado com o Prêmio Turing, considerado o "Nobel da computação", juntamente com Andrew Barto, por suas contribuições seminais para o campo do aprendizado por reforço.

Contexto histórico e desenvolvimento

Nascido em Ohio, EUA, em 1957 ou 1958, Richard Sutton cresceu em Oak Brook, Illinois. Ele obteve seu bacharelado em psicologia pela Universidade de Stanford em 1978, seguido por um mestrado (1980) e doutorado (1984) em ciência da computação pela Universidade de Massachusetts Amherst, sob a supervisão de Andrew Barto. Sua dissertação de doutorado, "Temporal Credit Assignment in Reinforcement Learning", introduziu conceitos como arquiteturas ator-crítico e atribuição de crédito temporal.

Sutton foi profundamente influenciado pelo trabalho de Harry Klopf na década de 1970, que defendia que o aprendizado supervisionado era insuficiente para a IA e que o aprendizado por tentativa e erro, impulsionado por "aspectos hedônicos do comportamento", era essencial. Essa perspectiva direcionou seu foco para o aprendizado por reforço. No início dos anos 1980, Sutton e Barto colaboraram na Universidade de Massachusetts, explorando o comportamento dos neurônios cerebrais como base para a inteligência humana. Eles aplicaram a matemática para desenvolver o conceito de aprendizado por reforço, que se tornou uma técnica central na IA.

Eles utilizaram Processos de Decisão de Markov (PDM) como base matemática para modelar como agentes algorítmicos tomam decisões em ambientes estocásticos, recebendo recompensas por suas ações. Diferentemente da teoria tradicional de PDM, que assumia conhecimento completo do ambiente, as técnicas de Sutton e Barto permitiram que o ambiente e as recompensas fossem desconhecidos, ampliando a aplicabilidade dos algoritmos. O retorno de Sutton ao Canadá nos anos 2000 impulsionou ainda mais o desenvolvimento do aprendizado por reforço, culminando em aplicações notáveis como o programa AlphaGo do Google, que derrotou campeões humanos de Go.

Em 2019, Sutton publicou o ensaio "The Bitter Lesson" (A Lição Amarga), no qual criticou a pesquisa em IA por ignorar que "construir como pensamos que pensamos não funciona a longo prazo". Ele argumentou que "70 anos de pesquisa em IA [mostraram] que métodos gerais que aproveitam a computação são, em última análise, os mais eficazes, e por uma grande margem", superando abordagens baseadas no conhecimento humano específico de domínios como visão computacional ou reconhecimento de fala. Sutton também expressa ceticismo em relação aos grandes modelos de linguagem (LLMs), sugerindo que eles não são capazes de aprendizado contínuo e que novas arquiteturas de modelo serão necessárias para permitir o aprendizado em tempo real, tornando os LLMs obsoletos.

Em 2023, Sutton e John Carmack anunciaram uma parceria para o desenvolvimento de inteligência artificial geral (AGI).

Linha do tempo

1957/1958: Nascimento de Richard S. Sutton em Ohio, EUA.
1978: Conclui o bacharelado em psicologia na Universidade de Stanford.
1980: Obtém o mestrado em ciência da computação na Universidade de Massachusetts Amherst.
1984: Conclui o doutorado em ciência da computação na Universidade de Massachusetts Amherst, sob a supervisão de Andrew Barto. Atua como pesquisador de pós-doutorado na mesma universidade.
1985-1994: Membro principal da equipe técnica no GTE Laboratories.
1995-1998: Cientista pesquisador sênior na Universidade de Massachusetts Amherst.
1998-2002: Membro principal da equipe técnica no AT&T Labs Shannon Laboratory.
2001: Nomeado Fellow da Association for the Advancement of Artificial Intelligence (AAAI).
2003: Torna-se professor de ciência da computação na Universidade de Alberta, onde ajuda a fundar o Laboratório de Aprendizado por Reforço e Inteligência Artificial. Recebe o Prêmio do Presidente da International Neural Network Society.
2013: Recebe o prêmio Outstanding Achievement in Research da Universidade de Massachusetts Amherst.
2015: Torna-se cidadão canadense.
2016: Eleito Fellow da Royal Society of Canada.
2017: Torna-se cientista pesquisador distinto no Google DeepMind e cofundador do DeepMind Alberta.
2019: Publica o ensaio "The Bitter Lesson".
2021: Eleito Fellow da Royal Society de Londres.
2023: Anuncia parceria com John Carmack para o desenvolvimento de AGI.
2024: Recebe o Prêmio Turing, juntamente com Andrew Barto.
2024-Presente: Cientista pesquisador na Keen Technologies.

Principais atores

Richard S. Sutton: Cientista da computação, professor e pesquisador, considerado um dos fundadores do aprendizado por reforço moderno.
Andrew Barto: Colaborador de longa data e orientador de doutorado de Sutton, co-recebedor do Prêmio Turing de 2024.
Harry Klopf: Pesquisador cujas ideias sobre aprendizado por tentativa e erro influenciaram Sutton.
John Carmack: Engenheiro de software com quem Sutton estabeleceu uma parceria para o desenvolvimento de AGI.
Universidade de Alberta: Instituição onde Sutton é professor e ajudou a estabelecer o Laboratório de Aprendizado por Reforço e Inteligência Artificial.
Google DeepMind: Empresa onde Sutton atuou como cientista pesquisador distinto e cofundou o DeepMind Alberta.
Keen Technologies: Empresa onde Sutton atua como cientista pesquisador.
Association for Computing Machinery (ACM): Organização que concede o Prêmio Turing.

Termos importantes

Aprendizado por Reforço (Reinforcement Learning - RL): Um paradigma de aprendizado de máquina onde um agente aprende a tomar decisões sequenciais em um ambiente para maximizar uma medida de recompensa. É uma das três categorias básicas de aprendizado de máquina, juntamente com o aprendizado supervisionado e não supervisionado.
Diferença Temporal (Temporal Difference - TD): Uma classe de métodos de aprendizado por reforço que aprende diretamente de experiências, sem um modelo do ambiente, atualizando estimativas de valor com base em outras estimativas de valor (bootstrapping).
Gradiente de Política (Policy Gradient): Uma categoria de algoritmos de aprendizado por reforço que otimiza diretamente a política do agente (a função que mapeia estados para ações) usando métodos baseados em gradiente.
Processos de Decisão de Markov (Markov Decision Processes - MDPs): Um arcabouço matemático para modelar a tomada de decisões em situações onde os resultados são parcialmente aleatórios e parcialmente sob o controle de um tomador de decisões.
Atribuição de Crédito Temporal (Temporal Credit Assignment): O problema de determinar quais ações passadas são responsáveis por recompensas futuras em um sistema de aprendizado por reforço.
A Lição Amarga (The Bitter Lesson): Ensaio de Richard Sutton que argumenta que, na pesquisa de IA, métodos gerais que escalam com a computação são mais eficazes a longo prazo do que abordagens que incorporam conhecimento humano específico de domínio.
Inteligência Artificial Geral (Artificial General Intelligence - AGI): Um tipo de inteligência artificial que pode entender, aprender e aplicar conhecimento em uma ampla gama de tarefas, de forma semelhante à inteligência humana, em contraste com a IA estreita (ANI) que é especializada em uma única tarefa.