Modelo de 'mundo' começa pela geração de vídeo; a versão Omni Flash já está no app Gemini, no Flow e no YouTube Shorts.
Ainda no I/O, o Google revelou o Gemini Omni, um modelo capaz de transformar qualquer tipo de entrada (texto, imagem, áudio ou vídeo) em qualquer tipo de saída, a começar pela geração de vídeo. A primeira versão, a Omni Flash, já chegou ao aplicativo Gemini, à ferramenta de criação Flow e ao YouTube Shorts, com acesso por API para desenvolvedores previsto para as semanas seguintes.
Omni deixa o usuário editar vídeo por conversa e criar um avatar de IA com o próprio rosto e voz, recurso liberado apenas após um cadastro dedicado que o Google diz servir para barrar deepfakes. A empresa posiciona o modelo como parte da sua aposta em 'modelos de mundo', a ideia de tirar a IA da previsão de texto e levá-la a simular a realidade; uma versão Pro mais avançada deve vir depois.
20 mai, 09:00
19 mai, 14:03
12 mai, 14:34
15 abr, 14:03
15 abr, 14:03
Carregando comentários...