What happens now that AI is good at math? — the OpenAI Podcast Ep. 17

Neste episódio do podcast da OpenAI, Andrew Mayne entrevista os pesquisadores Sebastian Bubeck e Ernest Ryu sobre o avanço da inteligência artificial (IA) na matemática. Eles discutem como os Large Language Models (LLMs) evoluíram de uma capacidade quase risível para resolver problemas de nível de Olimpíada Internacional de Matemática e até mesmo problemas de pesquisa, e por que a matemática é crucial para alcançar a AGI (Inteligência Artificial Geral).

Evolução da IA na Matemática

Progresso Miraculoso: Sebastian Bubeck afirma que o progresso nos últimos anos foi "nada menos que miraculoso". Há dois anos, não existiam modelos de raciocínio capazes de provar teoremas matemáticos difíceis; hoje, eles auxiliam medalhistas Fields em seu trabalho diário.
Surpresa na Comunidade: A comunidade matemática, incluindo os próprios pesquisadores da OpenAI, foi pega de surpresa. Um debate há um ano e meio sobre a capacidade de LLMs resolverem grandes problemas abertos teve 80% dos participantes votando "não". Oito meses depois, os modelos já faziam matemática de nível de pesquisa.
Desempenho em Olimpíadas: No verão de 2025, o ChatGPT alcançou desempenho de nível humano superior na Olimpíada Internacional de Matemática (IMO), conquistando uma medalha de ouro. Isso demonstrou alta capacidade em problemas de competição, que têm soluções relativamente curtas.

Resolução de Problemas de Pesquisa

Problema Aberto de 42 Anos: Ernest Ryu descreve como usou o ChatGPT para resolver um problema aberto de 42 anos na teoria de otimização, relacionado ao método de gradiente acelerado de Nesterov. Ele interagiu com o modelo por 12 horas ao longo de três dias, verificando e corrigindo erros, até obter uma prova correta. Este foi um dos primeiros exemplos de um problema matemático genuinamente aberto resolvido por IA.
Capacidade Atual dos LLMs: Ernest Ryu calibra a capacidade atual dos LLMs afirmando que, a menos que se seja um matemático profissional inventando novas matemáticas, o ChatGPT pode lidar com todas as necessidades matemáticas de um físico, químico ou qualquer profissional de STEM que use matemática complexa (equações diferenciais, geometria diferencial, etc.). Ele ressalta a necessidade de cautela e verificação, mas para 99% da população, os modelos podem resolver seus problemas matemáticos.

O Que Impulsionou a Mudança?

Não Apenas Escala: Sebastian Bubeck explica que a melhoria não se deveu apenas ao escalonamento dos LLMs. A OpenAI realiza muita pesquisa inovadora, e o progresso é resultado de múltiplos avanços simultâneos. Ele lembra que há quatro anos, antes do ChatGPT, um modelo como o Minerva do Google, que conseguia traçar uma linha entre dois pontos, já era impressionante, mostrando a rapidez da evolução.
Matemática como Benchmark: A matemática serviu como um benchmark perfeito para o progresso dos modelos devido à clareza e não ambiguidade das perguntas e à verificabilidade das respostas. Isso permitiu que os pesquisadores avaliassem o avanço da IA de forma objetiva.

Implicações para a Ciência e Pesquisa

Raciocínio Consistente: A matemática exige raciocínio longo e consistente, onde um único erro invalida todo o argumento. A capacidade dos modelos de manter essa consistência é uma propriedade desejável que se espera que se generalize para outras áreas, assim como o treinamento em matemática desenvolve o pensamento lógico em humanos.
Problemas de Erdos: Os modelos da OpenAI foram testados em problemas abertos de Paul Erdos, um dos matemáticos mais prolíficos do século passado. Inicialmente, o modelo encontrou soluções através de uma "pesquisa profunda na literatura", conectando campos aparentemente não relacionados. Mais tarde, os modelos geraram mais de 10 soluções completamente novas e publicáveis, demonstrando a capacidade de inventar nova matemática.
Aceleração da Pesquisa: A IA acelera o processo de pesquisa. Ernest Ryu estima que o problema de 42 anos que ele resolveu com o ChatGPT teria levado um mês sem a IA. A capacidade de gerar dados para benchmarks ou escrever código rapidamente, como exemplificado por Andrew Mayne, acelera significativamente o trabalho científico.
Auto-Pesquisador e "AGI Time": O conceito de "auto-pesquisador" refere-se a modelos que trabalham autonomamente por longos períodos. Sebastian Bubeck introduz o conceito de "AGI time", que mede por quanto tempo uma IA pode imitar o pensamento humano. Em quatro anos, a IA passou de segundos para minutos, horas e agora dias/uma semana. O objetivo é alcançar semanas e meses, o que é crucial para grandes avanços científicos.
Contexto de Longa Duração: A limitação atual dos LLMs é a janela de contexto finita (cerca de 50 páginas de um artigo de matemática). No entanto, a experiência com o Codex, que lida com grandes repositórios de código e longas conversas, sugere que os LLMs poderão em breve resolver problemas que exigem mais de 50 páginas de pensamento, imitando como matemáticos humanos organizam e resumem ideias ao longo de meses.
Matemática Mais Rica e Interconectada: Ernest Ryu prevê que a matemática se tornará mais rica e interconectada. A IA poderá conectar resultados de nichos hiper-especializados, tornando-os acessíveis e úteis para um público mais amplo. Além disso, a verificação de provas matemáticas, que atualmente leva anos e é propensa a erros, será acelerada e mais confiável com a IA, permitindo que a comunidade construa sobre resultados verificados mais rapidamente.

Desafios e o Papel Humano

Perigo da Compreensão Superficial: Sebastian Bubeck alerta sobre o perigo de uma compreensão mais superficial se os humanos confiarem demais na IA. A expertise humana continua sendo crucial para guiar a IA e interpretar seus resultados. Ele observa que não-matemáticos que tentaram usar a IA para provar teoremas frequentemente produziram provas erradas.
Necessidade de Mais Cientistas: Contrariando a ideia de que a IA substituirá os cientistas, os pesquisadores enfatizam a necessidade de mais cientistas, que serão mais produtivos e poderosos com as novas ferramentas. A IA pode ajudar a nova geração a aprender ciência mais rapidamente, mas o trabalho árduo e a profundidade do entendimento ainda são essenciais.
Verificação e Responsabilidade: A IA pode auxiliar na verificação de trabalhos científicos, sinalizando potenciais problemas. No entanto, a responsabilidade final pela correção e reputação ainda recai sobre o pesquisadores humanos. A cultura de responsabilidade na matemática deve se estender ao uso da IA.
Companheiro de Aprendizagem: Para aqueles interessados em matemática, o ChatGPT pode ser um excelente tutor, explicando conceitos, respondendo a perguntas de acompanhamento e até mesmo sugerindo problemas abertos adequados ao nível de conhecimento do usuário. Isso torna o processo de aprendizagem e pesquisa menos solitário e mais divertido.