A OpenAI apresentou três modelos especializados da família GPT-Realtime, focados em raciocínio avançado, tradução e transcrição de baixa latência.

A OpenAI anunciou o lançamento de três novos modelos de voz da família GPT-Realtime, projetados para operar em tempo real e transformar a interação com interfaces de inteligência artificial. Disponibilizados via API, os modelos permitem que desenvolvedores criem aplicações que reagem dinamicamente às conversas. O GPT-Realtime-2 destaca-se pelo raciocínio avançado, com capacidade de nível GPT-5, enquanto o GPT-Realtime-Translate oferece tradução em mais de 70 idiomas e o GPT-Realtime-Whisper foca em transcrição de baixa latência.
Além das capacidades técnicas, a nova arquitetura da OpenAI separa as tarefas de tradução, transcrição e raciocínio em modelos especializados, em vez de utilizar um sistema único. Essa mudança estratégica visa reduzir custos operacionais e contornar limitações de contexto enfrentadas por empresas ao implementar agentes de voz. Com suporte a janelas de contexto de 128K tokens, a solução busca otimizar a orquestração de fluxos de dados, posicionando a OpenAI como uma competidora direta da linha Voxtral, da Mistral, no mercado corporativo.
Venturebeat • 8 mai, 18:41
Times Brasil • 8 mai, 08:48
Techmeme • 7 mai, 15:20
5 mai, 15:04
23 abr, 16:12
21 abr, 17:02
10 abr, 15:04
26 mar, 14:34
Carregando comentários...