Andrew Barto é um renomado cientista da computação e professor emérito da Universidade de Massachusetts Amherst, amplamente reconhecido por suas contribuições fundamentais ao aprendizado por reforço. Seu trabalho pioneiro, em colaboração com Richard S. Sutton, estabeleceu as bases conceituais e algorítmicas para essa área crucial da inteligência artificial, utilizando Processos de Decisão de Markov para permitir que agentes algorítmicos aprendam em ambientes desconhecidos. Em 2025, Barto e Sutton receberão o Prêmio Turing por seu impacto duradouro no campo da computação, que é evidente em aplicações como o AlphaGo.
Andrew Gehret Barto (nascido em 1948) é um renomado cientista da computação americano e professor emérito da Universidade de Massachusetts Amherst. Ele é amplamente reconhecido por suas contribuições fundamentais para o campo do aprendizado por reforço computacional moderno, uma área crucial da inteligência artificial. Seu trabalho, em colaboração com seu ex-aluno de doutorado Richard S. Sutton, estabeleceu as bases conceituais e algorítmicas para essa disciplina, que se tornou essencial para o desenvolvimento da IA contemporânea.
Andrew Barto obteve seu bacharelado em matemática pela Universidade de Michigan em 1970 e, posteriormente, um doutorado em ciência da computação em 1975, com uma tese sobre autômatos celulares. Seu interesse em modelar o cérebro usando computadores e matemática foi despertado pela leitura de trabalhos de Michael Arbib, Warren Sturgis McCulloch e Walter Pitts.
Em 1977, Barto ingressou na Universidade de Massachusetts Amherst, onde se tornou professor associado em 1982 e professor titular em 1991. Na UMass, ele codirigiu o Autonomous Learning Laboratory (inicialmente Adaptive Network Laboratory), que foi fundamental para o desenvolvimento de ideias-chave no aprendizado por reforço. Foi nesse período que ele orientou Richard Sutton, com quem mais tarde coescreveu o influente livro "Reinforcement Learning: An Introduction".
O trabalho de Barto e Sutton no aprendizado por reforço utilizou os Processos de Decisão de Markov (PDM) como base matemática. Diferentemente da teoria tradicional de PDM, que pressupunha conhecimento completo do ambiente, suas técnicas permitiram que tanto o ambiente quanto as recompensas fossem desconhecidos, ampliando significativamente a aplicabilidade desses algoritmos. Essa abordagem permitiu que agentes algorítmicos tomassem decisões em ambientes estocásticos, recebendo recompensas por suas ações. O impacto de suas pesquisas é evidente em aplicações como o programa AlphaGo do Google, que demonstrou a eficácia do aprendizado por reforço ao derrotar campeões humanos no jogo Go.