Mistral lança um novo modelo de código aberto para geração de fala.

Robson Caitano26 de março de 202607 vizualizações

Lançamento do Novo Modelo de Voz da Mistral

A empresa francesa de inteligência artificial Mistral anunciou na última quinta-feira o lançamento de um novo modelo de voz open-source, que pode ser utilizado por assistentes de voz ou em aplicações empresariais, como suporte ao cliente. Este modelo, desenvolvido para que as empresas construam agentes de voz destinados a vendas e engajamento com clientes, coloca a Mistral em competição direta com empresas como ElevenLabs, Deepgram e OpenAI.

Detalhes do Modelo Voxtral TTS

O novo modelo de texto para fala, denominado Voxtral TTS, é compatível com nove idiomas, incluindo inglês, francês, alemão, espanhol, holandês, português, italiano, hindi e árabe.

"Os nossos clientes têm solicitado um modelo de fala. Por isso, desenvolvemos um modelo de fala compacto que pode ser instalado em um smartwatch, smartphone, laptop ou outros dispositivos de borda. O custo é uma fração de qualquer outro no mercado, mas oferece um desempenho de última geração", afirmou Pierre Stock, vice-presidente de operações científicas da Mistral AI, durante uma entrevista telefônica ao TechCrunch.

Funcionalidades e Desempenho

A Mistral declarou que o novo modelo é capaz de personalizar uma voz com uma amostra de menos de cinco segundos, além de captar características como sotaques sutis, inflexões, entonações e irregularidades na fluidez da fala. Com base no Ministral 3B, o modelo consegue alternar entre idiomas com facilidade, sem perder as características da voz, o que é útil para aplicações como dublagem ou tradução em tempo real. Stock mencionou que a empresa buscou que o modelo soasse humano e não robótico.

De acordo com a empresa, o modelo foi projetado para desempenho em tempo real. Ele apresenta um tempo até o primeiro áudio (TTFA) — uma medida do tempo que o modelo leva para "falar" após receber um input — de 90 milissegundos para uma amostra de 10 segundos com 500 caracteres. O modelo também tem um fator de tempo real (RTF) de 6x, o que significa que pode reproduzir um clipe de 10 segundos em aproximadamente 1,6 segundos.

Modelos de Transcrição Lançados Anteriormente

No início deste ano, a Mistral lançou uma dupla de modelos de transcrição, um para processamento em grandes volumes e outro para aplicações em tempo real com baixa latência. Com o novo modelo de fala, a empresa parece buscar fornecer um portfólio completo de produtos de voz para as empresas.

"Planejamos ter uma plataforma de ponta a ponta que possa lidar com fluxos de entrada multimodais, incluindo áudio, texto e imagens, e também de saída. O principal benefício disso é que você obtém muito mais informações com um sistema agentivo de ponta a ponta que suporta áudio como entrada ou saída", destacou Stock.

A Estratégia da Mistral

A Mistral se posiciona com a proposta de que seu modelo open-source e a possibilidade de personalização ofereciam vantagens competitivas em relação a outros modelos de voz disponíveis no mercado. Isso porque as empresas podem ajustá-lo da maneira como desejarem, permitindo uma experiência mais alinhada às suas necessidades específicas.

Lançamento do Novo Modelo de Voz da Mistral

Detalhes do Modelo Voxtral TTS

Funcionalidades e Desempenho

Modelos de Transcrição Lançados Anteriormente

A Estratégia da Mistral

Experiência de Jogo Elevada com o Monitor Gamer BenQ MOBIUZ EX271Q 27” 2K e 180Hz

Aumente sua produtividade e conforto com o suporte de celular articulado ajustável

Related posts

Conntour capta R$ 7 milhões da General Catalyst e YC para desenvolver um mecanismo de busca em IA para sistemas de vídeo de segurança.

Revisão dos processadores Intel Core Ultra 270K e 250K Plus: CPU’s com desempenho condicionalmente excelente.

Modelo de geração de vídeo por IA da ByteDance, Dreamina Seedance 2.0, chega ao CapCut.