Robotics' End Game: Nvidia's Jim Fan

Introdução

Jim Fan, líder do grupo de pesquisa em robótica autônoma da Nvidia, apresenta uma visão sobre o estado atual e o futuro da robótica, traçando um paralelo direto entre o desenvolvimento de Grandes Modelos de Linguagem (LLMs) e a próxima fase da robótica. Fan argumenta que, assim como os LLMs seguiram uma trajetória de sucesso baseada em predição de tokens e alinhamento, a robótica está entrando em seu próprio "end game" através da simulação do próximo estado do mundo físico.

O Grande Paralelo: Da Linguagem à Física

Fan propõe que a robótica deve copiar o sucesso dos LLMs, substituindo a predição de strings pela predição de estados físicos. Os pontos principais incluem:

Modelos de Ação e Visão (WAMs): A transição dos modelos VOA (Vision-Language-Action) para os WAMs (World-Action Models). Enquanto os modelos anteriores focavam excessivamente em linguagem, os WAMs priorizam a física e a ação, aprendendo gravidade, iluminação e geometria através da observação de vídeos.
Dream Zero: Um modelo de política que "sonha" com o futuro próximo (próximos segundos) para tomar decisões. Ele decodifica estados mundiais e ações simultaneamente, permitindo que o robô resolva tarefas que nunca viu durante o treinamento.
Estratégia de Dados: A dependência histórica da teleoperação (controlar robôs manualmente) é limitada e ineficiente. Fan defende a transição para:
- Wearables (Dex UMI): Exoesqueletos que permitem coletar dados de destreza humana de forma mais direta.
- Vídeos Egocêntricos (Ego-Scale): O uso de vídeos de câmeras em primeira pessoa (como o que ocorre no treinamento de sistemas de direção autônoma) para treinar robôs. O modelo Ego-Scale foi pré-treinado com 21 mil horas de vídeos humanos, exigindo menos de 0,1% de dados de teleoperação para atingir alta destreza.
Simulação Neural (Dream Dojo): A necessidade de escalar ambientes de treinamento sem a necessidade de motores gráficos clássicos. O Dream Dojo utiliza modelos de vídeo para criar simuladores neurais que aprendem a mecânica de robôs puramente através de dados.

Citações Relevantes

"Se você acredita em aprendizado profundo, o aprendizado profundo acreditará em você."
"A física emerge ao prever o próximo bloco de pixels em escala."
"Nossa geração nasceu tarde demais para explorar a Terra e cedo demais para explorar as estrelas, mas na hora certa para resolver a robótica."

Implicações

Fim da Teleoperação: A coleta de dados via teleoperação será substituída por vídeos egocêntricos e wearables, permitindo uma escala de dados na casa dos milhões de horas.
Teste de Turing Físico: Fan prevê que, em 2 a 3 anos, robôs serão indistinguíveis de humanos em uma ampla gama de tarefas físicas.
Fábricas 'Lights-Out': A visão de longo prazo inclui fábricas totalmente autônomas que operam como "impressoras de átomos", recebendo arquivos de design em Markdown e entregando produtos acabados.
Cronograma: Com base na aceleração exponencial da tecnologia desde 2012, Fan estima com 95% de certeza que alcançaremos o estágio final da árvore tecnológica da robótica (pesquisa autônoma completa) até 2040.