Z.ai lança GLM-5V-Turbo: modelo multimodal de visão e código otimizado para OpenClaw
MarkTechPost: Zhipu AI lançou GLM-5V-Turbo, modelo que transforma screenshots em código com 200K de contexto e 128K de output.
|
02/04 às 09:00
Pontos principais
- Usa encoder de visão CogViT e arquitetura MTP (Multi-Token Prediction)
- 200K tokens de contexto, 128K de output
- 30+ tarefas de RL conjunto para balancear visão e código
- SOTA em CC-Bench-V2 e ZClawBench
Mencionado nesta matéria
Organizações
Zhipu AI
Lugares
China
