Lançamento do Novo Modelo de Voz da Mistral
A empresa francesa de inteligência artificial Mistral anunciou na última quinta-feira o lançamento de um novo modelo de voz open-source, que pode ser utilizado por assistentes de voz ou em aplicações empresariais, como suporte ao cliente. Este modelo, desenvolvido para que as empresas construam agentes de voz destinados a vendas e engajamento com clientes, coloca a Mistral em competição direta com empresas como ElevenLabs, Deepgram e OpenAI.
Detalhes do Modelo Voxtral TTS
O novo modelo de texto para fala, denominado Voxtral TTS, é compatível com nove idiomas, incluindo inglês, francês, alemão, espanhol, holandês, português, italiano, hindi e árabe.
"Os nossos clientes têm solicitado um modelo de fala. Por isso, desenvolvemos um modelo de fala compacto que pode ser instalado em um smartwatch, smartphone, laptop ou outros dispositivos de borda. O custo é uma fração de qualquer outro no mercado, mas oferece um desempenho de última geração", afirmou Pierre Stock, vice-presidente de operações científicas da Mistral AI, durante uma entrevista telefônica ao TechCrunch.
Funcionalidades e Desempenho
A Mistral declarou que o novo modelo é capaz de personalizar uma voz com uma amostra de menos de cinco segundos, além de captar características como sotaques sutis, inflexões, entonações e irregularidades na fluidez da fala. Com base no Ministral 3B, o modelo consegue alternar entre idiomas com facilidade, sem perder as características da voz, o que é útil para aplicações como dublagem ou tradução em tempo real. Stock mencionou que a empresa buscou que o modelo soasse humano e não robótico.
De acordo com a empresa, o modelo foi projetado para desempenho em tempo real. Ele apresenta um tempo até o primeiro áudio (TTFA) — uma medida do tempo que o modelo leva para "falar" após receber um input — de 90 milissegundos para uma amostra de 10 segundos com 500 caracteres. O modelo também tem um fator de tempo real (RTF) de 6x, o que significa que pode reproduzir um clipe de 10 segundos em aproximadamente 1,6 segundos.
Modelos de Transcrição Lançados Anteriormente
No início deste ano, a Mistral lançou uma dupla de modelos de transcrição, um para processamento em grandes volumes e outro para aplicações em tempo real com baixa latência. Com o novo modelo de fala, a empresa parece buscar fornecer um portfólio completo de produtos de voz para as empresas.
"Planejamos ter uma plataforma de ponta a ponta que possa lidar com fluxos de entrada multimodais, incluindo áudio, texto e imagens, e também de saída. O principal benefício disso é que você obtém muito mais informações com um sistema agentivo de ponta a ponta que suporta áudio como entrada ou saída", destacou Stock.
A Estratégia da Mistral
A Mistral se posiciona com a proposta de que seu modelo open-source e a possibilidade de personalização ofereciam vantagens competitivas em relação a outros modelos de voz disponíveis no mercado. Isso porque as empresas podem ajustá-lo da maneira como desejarem, permitindo uma experiência mais alinhada às suas necessidades específicas.