Modelo omnimodal entende texto, imagem, áudio e vídeo, aceita mais de 10h de áudio e tem busca na web em tempo real.
A Alibaba lançou o Qwen3.5-Omni, um modelo de linguagem totalmente omnimodal que entende e gera texto, imagem, áudio e vídeo. O modelo aceita mais de 10 horas de áudio como input e vem com busca na web em tempo real integrada.
A variante Plus superou o Gemini 3.1 Pro do Google em testes de áudio e alcançou 215 resultados estado-da-arte em benchmarks diversos. Entre os recursos de destaque está o 'audio-visual vibe coding', onde o usuário aponta a câmera para algo, descreve o que quer e o modelo gera código a partir disso.
28 mar, 09:00
27 mar, 09:00
1 mar, 13:19
26 fev, 18:39
26 fev, 14:57