Richard S. Sutton é um cientista da computação canadense, professor na Universidade de Alberta e pesquisador na Keen Technologies, amplamente reconhecido como um dos fundadores do aprendizado por reforço computacional moderno. Ele é conhecido por suas contribuições, incluindo o aprendizado por diferença temporal e métodos de gradiente de política, que são fundamentais para a inteligência artificial. Em 2024, Sutton recebeu o Prêmio Turing, o "Nobel da computação", ao lado de Andrew Barto, por seu trabalho seminal no campo. Atualmente, ele continua a influenciar a IA, inclusive através de sua crítica à dependência de conhecimento humano específico em "A Lição Amarga" e sua parceria com John Carmack para desenvolver Inteligência Artificial Geral (AGI).
Richard Stuart Sutton é um renomado cientista da computação canadense, professor na Universidade de Alberta e pesquisador científico na Keen Technologies. Ele é amplamente reconhecido como um dos fundadores do aprendizado por reforço computacional moderno, uma área fundamental da inteligência artificial (IA). Suas contribuições incluem o desenvolvimento do aprendizado por diferença temporal e métodos de gradiente de política. Em 2024, Sutton foi agraciado com o Prêmio Turing, considerado o "Nobel da computação", juntamente com Andrew Barto, por suas contribuições seminais para o campo do aprendizado por reforço.
Nascido em Ohio, EUA, em 1957 ou 1958, Richard Sutton cresceu em Oak Brook, Illinois. Ele obteve seu bacharelado em psicologia pela Universidade de Stanford em 1978, seguido por um mestrado (1980) e doutorado (1984) em ciência da computação pela Universidade de Massachusetts Amherst, sob a supervisão de Andrew Barto. Sua dissertação de doutorado, "Temporal Credit Assignment in Reinforcement Learning", introduziu conceitos como arquiteturas ator-crítico e atribuição de crédito temporal.
Sutton foi profundamente influenciado pelo trabalho de Harry Klopf na década de 1970, que defendia que o aprendizado supervisionado era insuficiente para a IA e que o aprendizado por tentativa e erro, impulsionado por "aspectos hedônicos do comportamento", era essencial. Essa perspectiva direcionou seu foco para o aprendizado por reforço. No início dos anos 1980, Sutton e Barto colaboraram na Universidade de Massachusetts, explorando o comportamento dos neurônios cerebrais como base para a inteligência humana. Eles aplicaram a matemática para desenvolver o conceito de aprendizado por reforço, que se tornou uma técnica central na IA.
Eles utilizaram Processos de Decisão de Markov (PDM) como base matemática para modelar como agentes algorítmicos tomam decisões em ambientes estocásticos, recebendo recompensas por suas ações. Diferentemente da teoria tradicional de PDM, que assumia conhecimento completo do ambiente, as técnicas de Sutton e Barto permitiram que o ambiente e as recompensas fossem desconhecidos, ampliando a aplicabilidade dos algoritmos. O retorno de Sutton ao Canadá nos anos 2000 impulsionou ainda mais o desenvolvimento do aprendizado por reforço, culminando em aplicações notáveis como o programa AlphaGo do Google, que derrotou campeões humanos de Go.
Em 2019, Sutton publicou o ensaio "The Bitter Lesson" (A Lição Amarga), no qual criticou a pesquisa em IA por ignorar que "construir como pensamos que pensamos não funciona a longo prazo". Ele argumentou que "70 anos de pesquisa em IA [mostraram] que métodos gerais que aproveitam a computação são, em última análise, os mais eficazes, e por uma grande margem", superando abordagens baseadas no conhecimento humano específico de domínios como visão computacional ou reconhecimento de fala. Sutton também expressa ceticismo em relação aos grandes modelos de linguagem (LLMs), sugerindo que eles não são capazes de aprendizado contínuo e que novas arquiteturas de modelo serão necessárias para permitir o aprendizado em tempo real, tornando os LLMs obsoletos.
Em 2023, Sutton e John Carmack anunciaram uma parceria para o desenvolvimento de inteligência artificial geral (AGI).