Google revela Gemini Omni, modelo que transforma qualquer input em qualquer output

Modelo de 'mundo' começa pela geração de vídeo; a versão Omni Flash já está no app Gemini, no Flow e no YouTube Shorts.

20/05 às 09:00

Pontos principais

Gemini Omni gera amostras em qualquer modalidade de saída a partir de qualquer entrada, começando por vídeo
Primeira versão, a Omni Flash, já disponível no app Gemini, na ferramenta Flow e no YouTube Shorts
Permite editar vídeo por conversa e criar avatar de IA com rosto e voz do usuário, após cadastro dedicado contra falsificações
Google enquadra o Omni como parte da aposta em 'modelos de mundo', simulando a realidade em vez de só prever texto

Ainda no I/O, o Google revelou o Gemini Omni, um modelo capaz de transformar qualquer tipo de entrada (texto, imagem, áudio ou vídeo) em qualquer tipo de saída, a começar pela geração de vídeo. A primeira versão, a Omni Flash, já chegou ao aplicativo Gemini, à ferramenta de criação Flow e ao YouTube Shorts, com acesso por API para desenvolvedores previsto para as semanas seguintes.

Omni deixa o usuário editar vídeo por conversa e criar um avatar de IA com o próprio rosto e voz, recurso liberado apenas após um cadastro dedicado que o Google diz servir para barrar deepfakes. A empresa posiciona o modelo como parte da sua aposta em 'modelos de mundo', a ideia de tirar a IA da previsão de texto e levá-la a simular a realidade; uma versão Pro mais avançada deve vir depois.

Google revela Gemini Omni, modelo que transforma qualquer input em qualquer output

Pontos principais

Fontes

Introducing Gemini Omni

Leia também

Google integra capacidade de uso de computador ao Gemini 3.5 Flash

Google integra ferramenta de uso de computador ao Gemini 3.5 Flash

Google divulga demonstrações técnicas dos modelos Gemini Omni e 3.5

Google reorienta estratégia de IA com foco no usuário final

Google anuncia Gemini Intelligence para automação no Android

Comentários