Modelo multimodal de 15 bilhões de parâmetros com três modos de pensamento rivaliza em raciocínio matemático e leitura de documentos.
A Microsoft lançou o Phi-4-reasoning-vision-15B, modelo multimodal open-weight de 15 bilhões de parâmetros que combina o codificador de imagem SigLIP-2 com o Phi-4 Reasoning em uma arquitetura mid-fusion. O modelo processa tanto imagens quanto texto e oferece três modos de raciocínio: hybrid (padrão, o modelo decide), think (cadeia de raciocínio forçada) e nothink (saída direta).
O Phi-4-reasoning-vision compete com sistemas que exigem 10 vezes mais computação, destacando-se em raciocínio matemático e científico, interpretação de gráficos, leitura de documentos e compreensão de interfaces gráficas. Disponível no HuggingFace, GitHub e Microsoft Foundry sob licença permissiva.
13 mar, 09:00
11 mar, 09:00
6 mar, 09:00
1 mar, 13:19
26 fev, 18:39