Modelo de imagem da AI do Google Gemini recebe uma atualização ‘incrível’

por Robson Caitano

Google Atualiza Chatbot Gemini com Novo Modelo de Imagem AI

Google está aprimorando seu chatbot Gemini com um novo modelo de imagem baseado em inteligência artificial, o que permitirá aos usuários um maior controle sobre a edição de fotos. Essa atualização busca equiparar-se às populares ferramentas de imagem da OpenAI e atrair usuários que utilizam o ChatGPT.

Lançamento da Atualização

A atualização, denominada Gemini 2.5 Flash Image, começa a ser disponibilizada a partir de terça-feira para todos os usuários do aplicativo Gemini, bem como para desenvolvedores por meio da API Gemini, Google AI Studio e plataformas Vertex AI.

Precisão nas Edições de Imagem

O novo modelo de imagem AI do Gemini é projetado para realizar edições mais precisas em imagens, com base em solicitações em linguagem natural dos usuários, enquanto preserva a consistência de rostos, animais e outros detalhes. Essa característica é um desafio que a maioria das ferramentas concorrentes enfrenta. Por exemplo, ao solicitar a alteração da cor da camisa de alguém em uma foto utilizando o ChatGPT ou o Grok da xAI, o resultado pode resultar em um rosto distorcido ou um fundo alterado.

Reconhecimento nas Redes Sociais

A nova ferramenta da Google já atraiu atenção. Nas últimas semanas, usuários das redes sociais demonstraram entusiasmo em relação a um impressionante editor de imagem AI na plataforma de avaliação colaborativa, LMArena. O modelo se apresentou aos usuários anonimamente sob o pseudônimo "nano-banana".

Modelo de Imagem Inovador

A Google confirmou que está por trás deste modelo, o que é evidente pelos vários indícios relacionados a bananas, e afirma que essa capacidade de imagem é uma característica nativa dentro de seu modelo principal Gemini 2.5 Flash AI. A empresa declara que o modelo de imagem é de última geração, de acordo com a LMArena e outros benchmarks.

Avanços na Qualidade Visual

"Estamos realmente impulsionando a qualidade visual para frente, assim como a capacidade do modelo de seguir instruções," afirmou Nicole Brichtova, líder de produto em modelos de geração visual na Google DeepMind, em entrevista ao TechCrunch. Brichtova destacou que "esta atualização faz um trabalho muito melhor ao realizar edições de forma mais harmoniosa, e as saídas dos modelos são utilizáveis para o que você quiser."

Competição no Setor de Imagens AI

Modelos de imagem AI tornaram-se um campo de batalha crítico para as grandes tecnologias. Quando a OpenAI lançou o gerador de imagens nativo do GPT-4o em março, isso aumentou significativamente o uso do ChatGPT, impulsionado por uma onda de memes gerados por inteligência artificial no estilo do Studio Ghibli, o que, segundo o CEO da OpenAI, Sam Altman, levou os GPUs da empresa a "derreter".

Para se manter competitivo com a OpenAI e o Google, a Meta anunciou na semana passada que licenciaria modelos de imagem AI da startup Midjourney. Enquanto isso, a Black Forest Labs, um unicórnio alemão apoiado pela a16z, continua a liderar os benchmarks com seus modelos de imagem AI FLUX.

Oportunidades de Crescimento

O impressionante editor de imagem AI do Gemini pode ajudar a Google a diminuir a diferença de usuários em relação à OpenAI. Atualmente, o ChatGPT possui mais de 700 milhões de usuários semanais. Durante a chamada de ganhos da Google em julho, o CEO Sundar Pichai revelou que o Gemini tinha 450 milhões de usuários mensais, indicando que o número de usuários semanais é ainda menor.

Foco em Casos de Uso dos Consumidores

Brichtova informou que a Google projetou especificamente o modelo de imagem tendo em mente os casos de uso dos consumidores, como ajudar os usuários a visualizar projetos para casa e jardim. O modelo também possui melhor "conhecimento sobre o mundo" e pode combinar várias referências em um único prompt; por exemplo, permitindo a união de uma imagem de um sofá, uma foto de uma sala de estar e uma paleta de cores em um único render.

Facilidade de Uso e Restrições

Embora o novo gerador de imagens AI do Gemini facilite para os usuários a criação e edição de imagens realistas, a empresa implementou salvaguardas que limitam o que os usuários podem criar. A Google encontrou dificuldades com as salvaguardas do gerador de imagem AI no passado e, em um momento, pediu desculpas por gerar imagens historicamente imprecisas de pessoas, levando à suspensão temporária do gerador de imagens AI.

Atualmente, a Google acredita que encontrou um equilíbrio melhor. "Queremos dar aos usuários controle criativo para que eles possam obter dos modelos o que desejam", explicou Brichtova. "Mas não é como se tudo fosse permitido."

Políticas de Uso Responsável

A seção de inteligência artificial generativa dos termos de serviço da Google proíbe os usuários de gerar "imagens íntimas não consensuais". Esses tipos de salvaguardas não parecem existir para o Grok, que permitiu que os usuários criassem imagens explícitas geradas por AI que se assemelham a celebridades, como Taylor Swift.

Para enfrentar o aumento das imagens deepfake, que podem dificultar a discernibilidade do que é real na internet, Brichtova indica que a Google aplica marcas d’água visuais em imagens geradas por inteligência artificial, além de identificadores em seus metadados. Contudo, alguém que está apenas visualizando uma imagem nas redes sociais pode não se atentar a esses identificadores.

Artigos Relacionados

Deixe um Comentário