Speechify incorpora digitação por voz e assistente de voz à sua extensão do Chrome.

por Robson Caitano

Introdução ao Speechify

A Speechify tem se destacado como uma ferramenta que facilita a escuta de artigos, PDFs e documentos. Recentemente, a empresa anunciou a adição de recursos de detecção de voz à sua extensão para Chrome, incluindo a funcionalidade de digitação por voz e um assistente de voz que responde a perguntas dos usuários.

Crescimento das Ferramentas de Detecção de Voz

Nos últimos 12 meses, houve uma explosão de ferramentas de detecção de voz, impulsionada pela melhoria geral na qualidade dos modelos de reconhecimento de fala. A Speechify está acompanhando essa tendência ao lançar sua própria ferramenta de ditado com suporte para o idioma inglês. Assim como outras ferramentas de ditado, a digitação por voz da Speechify possui a capacidade de corrigir erros e eliminar palavras de preenchimento.

Testes Iniciais com a Ferramenta

Em um teste de pouco mais de um dia, foi percebido que há espaço significativo para melhorias na ferramenta da Speechify. Por exemplo, a funcionalidade funciona bem com Gmail e Google Docs, mas em plataformas como WordPress, houve dificuldades para ativar o ditado por voz e para que ele funcionasse adequadamente. A empresa informou que está implementando gradualmente otimizações para sites populares.

Desempenho e Precisão

No que diz respeito à precisão, a taxa de erro de palavras foi superior à encontrada em outras ferramentas, como Wispr Flow, Willow e Monologue. No entanto, a Speechify destacou que seu modelo aprende mais rapidamente à medida que é utilizado, resultando em uma diminuição gradual da taxa de erro.

Assistente de Voz Conversacional

A startup também está lançando um assistente de voz conversacional que ficará disponível na barra lateral do navegador. Os usuários poderão fazer perguntas sobre o site, como “quais são as três ideias principais?” ou “explique isso em termos mais simples”.

Comparação com Outros Assistentes

Embora o ChatGPT e o Gemini tenham modos conversacionais, a argumentação da Speechify é de que esses assistentes são tratados como um aspecto secundário em suas aplicações, enquanto a ferramenta da startup coloca a voz em um papel de destaque.

Declarações da Liderança

Rohan Pavuluri, diretor de negócios da empresa, comentou sobre a percepção de mercado: “Acreditamos que o chat será sempre a experiência padrão do usuário no ChatGPT e no Gemini quando você abre os aplicativos. Isso é o que os usuários esperam. A voz sempre será secundária – e, em muitos casos, apenas uma consideração para ChatGPT e Gemini. Sabemos, a partir de vários anos construindo a Speechify, que há uma grande parte do mercado, que inclui nossos usuários, que deseja que a voz seja a configuração primária, padrão, toda vez que abrem um aplicativo e conversam com a IA."

Desafios de Integração

Um desafio notável nesse contexto é que o assistente da Speechify não funciona atualmente em navegadores que possuem assistentes laterais embutidos, como o Atlas da OpenAI, o Coment da Perplexity e o Dia. A startup não considera essa situação um grande problema, uma vez que a extensão é predominantemente voltada para o Chrome e sua ampla base de usuários.

Planos Futuros da Speechify

A Speechify afirmou que pretende incluir tanto a digitação por voz quanto o assistente de voz em todos os seus aplicativos, tanto para desktop quanto para dispositivos móveis, de maneira gradual.

Desenvolvimento de Agentes para Tarefas

Além disso, a startup busca desenvolver agentes que realizem tarefas em nome dos usuários. Embora não tenha revelado todo o seu roadmap, um exemplo mencionado foi a possibilidade de fazer ligações para agendar compromissos ou aguardar na linha com a equipe de suporte ao cliente de uma empresa. Outras empresas, como Truecaller e Cloacked, têm perseguido objetivos semelhantes.

Artigos Relacionados

Deixe um Comentário