Tecnologia alimenta o modo de voz do ChatGPT via LiveKit; Fluent LoRA replica timbre de qualquer gravação.
A MiniMax lançou o Speech 2.6, modelo de agente de voz com latência abaixo de 250 milissegundos, posicionando a geração de áudio como não mais um gargalo em sistemas conversacionais de IA em tempo real.
O modelo suporta clonagem de voz em 40+ idiomas com a tecnologia 'Fluent LoRA', que replica o timbre mesmo a partir de gravações imperfeitas com sotaques ou disfluências. O Speech 2.6 processa diretamente formatos de texto não padrão como URLs, e-mails e números de telefone sem pré-processamento. A tecnologia da MiniMax é usada pelo LiveKit, que alimenta o modo de voz do ChatGPT.
28 mar, 09:00
27 mar, 09:00
19 mar, 09:00
16 mar, 09:00
1 mar, 13:19