ASR com pesos abertos e licença Apache 2.0 clona voz a partir de 3 segundos de áudio por $0,016 a cada mil caracteres.
A Mistral lançou o Voxtral, plataforma de voz com modelos ASR e TTS de pesos abertos. O Voxtral 24B, baseado no Mistral Small 3.1, alcançou performance 'best in class' contra Whisper large-v3, GPT-4o mini Transcribe e Gemini 2.5 Flash em benchmarks de inglês e multilíngue FLEURS.
O modelo TTS de 4 bilhões de parâmetros clona voz a partir de 3 segundos de áudio de referência, capturando sotaque, inflexão e padrões naturais de fala, com latência de 70ms por $0,016 a cada 1.000 caracteres. Os modelos ASR estão sob licença Apache 2.0 no Hugging Face; o TTS é CC BY NC 4.0, com uso comercial exigindo acordo separado.
27 mar, 09:00
27 mar, 09:00
25 mar, 09:00
5 mar, 09:00
1 mar, 13:19