Thinking Machines apresenta "modelos interativos" multimodais em tempo real

Startup de Mira Murati revela classe de modelo de 276bi parâmetros que ouve, vê e responde em micro-turnos de 200ms, com latência de 0,40s.

12/05 às 09:00

Pontos principais

Thinking Machines, fundada pela ex-CTO da OpenAI Mira Murati, anunciou "modelos interativos" em pesquisa preview
Arquitetura nativamente multimodal processa áudio, vídeo e texto em micro-turnos contínuos de 200 milissegundos
Modelo principal TML-Interaction-Small tem 276 bilhões de parâmetros (12 bilhões ativos) em Mixture-of-Experts
Latência de 0,40 segundo, contra 0,57s do Gemini 3.1 Flash Live e 1,18s do GPT Realtime 2.0
Demos mostraram o modelo traduzindo fala em tempo real, notando um usuário se curvando e identificando animais mencionados numa história

A Thinking Machines Lab, criada por Mira Murati após sua saída da OpenAI, abriu uma pesquisa preview de uma nova classe de modelos batizada de "interaction models" — sistemas que lidam com interação nativamente, sem o andaime externo usado por modelos de turno único. Em vez de alternar entre falar e ouvir, o modelo processa áudio, vídeo e texto em micro-turnos contínuos de 200 milissegundos.

O sistema principal, TML-Interaction-Small, é um Mixture-of-Experts de 276 bilhões de parâmetros com 12 bilhões ativos, acoplado a um módulo separado para raciocínio mais lento. No benchmark FD-bench, atinge latência de 0,40 segundo no turn-taking, contra 0,57s do Gemini-3.1-flash-live e 1,18s do GPT-realtime-2.0. Uma preview limitada será aberta nos próximos meses, com lançamento mais amplo previsto para este ano.

Comentários

Carregando comentários...

Home / Tecnologia

Thinking Machines apresenta "modelos interativos" multimodais em tempo real

Startup de Mira Murati revela classe de modelo de 276bi parâmetros que ouve, vê e responde em micro-turnos de 200ms, com latência de 0,40s.

12/05 às 09:00

Pontos principais

Thinking Machines, fundada pela ex-CTO da OpenAI Mira Murati, anunciou "modelos interativos" em pesquisa preview
Arquitetura nativamente multimodal processa áudio, vídeo e texto em micro-turnos contínuos de 200 milissegundos
Modelo principal TML-Interaction-Small tem 276 bilhões de parâmetros (12 bilhões ativos) em Mixture-of-Experts
Latência de 0,40 segundo, contra 0,57s do Gemini 3.1 Flash Live e 1,18s do GPT Realtime 2.0
Demos mostraram o modelo traduzindo fala em tempo real, notando um usuário se curvando e identificando animais mencionados numa história

Comentários

Carregando comentários...

Thinking Machines apresenta "modelos interativos" multimodais em tempo real

Pontos principais

Leia também

Anthropic propõe novo modelo de colaboração entre humanos e agentes de IA

Interação por voz com IA transforma produtividade no trabalho

Thinking Machines anuncia subsídios para pesquisa em IA

Thinking Machines Labs revela IA multimodal para colaboração humana

Snowflake lança Project SnowWork, plataforma de IA agêntica para workflows corporativos

Comentários

Thinking Machines apresenta "modelos interativos" multimodais em tempo real

Pontos principais

Leia também

Anthropic propõe novo modelo de colaboração entre humanos e agentes de IA

Interação por voz com IA transforma produtividade no trabalho

Thinking Machines anuncia subsídios para pesquisa em IA

Thinking Machines Labs revela IA multimodal para colaboração humana

Snowflake lança Project SnowWork, plataforma de IA agêntica para workflows corporativos

Comentários