O novo modelo multimodal de código aberto do Google processa áudio e vídeo localmente em laptops com 16GB de memória, focando em privacidade e custo.
O Google anunciou o lançamento do Gemma 4 12B, um modelo de IA multimodal de código aberto projetado para processar áudio e vídeo diretamente em dispositivos locais. Com 11,95 bilhões de parâmetros, o modelo utiliza uma arquitetura unificada que elimina a necessidade de codificadores secundários, reduzindo significativamente a latência e o consumo de memória. A solução é otimizada para rodar em laptops empresariais equipados com 16GB de memória, permitindo que empresas processem dados sensíveis com maior privacidade e sem depender de infraestrutura em nuvem.
Além da eficiência técnica, o Gemma 4 12B apresenta uma janela de contexto de 256K tokens e suporte nativo para chamadas de função e raciocínio passo a passo. Essas características tornam o modelo uma alternativa robusta para o desenvolvimento de agentes autônomos e aplicações de borda que exigem operação offline, consolidando a estratégia do Google em democratizar o acesso a modelos de alto desempenho.
20 mai, 09:00
12 mai, 14:34
3 abr, 09:00
2 abr, 14:04
27 mar, 09:00
Carregando comentários...