O agente SIMA 2 do Google utiliza o Gemini para raciocinar e agir em mundos virtuais.

por Robson Caitano

Google DeepMind Apresenta a Próxima Geração do SIMA

Na quinta-feira, a Google DeepMind divulgou uma prévia de pesquisa do SIMA 2, a nova geração de seu agente de inteligência artificial generalista. Este agente incorpora os poderes linguísticos e de raciocínio do Gemini, o grande modelo de linguagem da Google, permitindo uma evolução que vai além de apenas seguir instruções, até entender e interagir com seu ambiente.

Evolução do SIMA

Como muitos projetos da DeepMind, incluindo o AlphaFold, a primeira versão do SIMA foi treinada com centenas de horas de dados de videogames, aprendendo a jogar múltiplos jogos 3D de maneira semelhante a um humano, até mesmo em jogos para os quais não havia sido treinado previamente. O SIMA 1, revelado em março de 2024, conseguiu seguir instruções básicas em uma ampla gama de ambientes virtuais, mas obteve apenas uma taxa de sucesso de 31% na conclusão de tarefas complexas, em comparação com 71% para os humanos.

Joe Marino, cientista sênior de pesquisa na DeepMind, afirmou em uma coletiva de imprensa que "o SIMA 2 é uma mudança significativa e uma melhoria nas capacidades em relação ao SIMA 1". Ele destacou que o SIMA 2 é um agente mais geral, capaz de completar tarefas complexas em ambientes anteriormente não vistos, bem como um agente que se aprimora de forma autônoma, podendo aprender com sua própria experiência, o que representa um passo em direção a robôs de propósito geral e sistemas de Inteligência Artificial Geral (AGI).

Capacidades do SIMA 2

O SIMA 2 é alimentado pelo modelo Gemini 2.5 flash-lite, e a AGI é definida pela DeepMind como um sistema capaz de realizar uma ampla gama de tarefas intelectuais, com a habilidade de aprender novas competências e generalizar conhecimentos entre diferentes áreas. De acordo com os pesquisadores da DeepMind, o trabalho com os chamados "agentes incorporados" é crucial para a inteligência generalizada. Marino explicou que um agente incorporado interage com um mundo físico ou virtual por meio de um corpo, observando entradas e realizando ações da mesma forma que um robô ou humano, enquanto um agente não incorporado pode interagir com calendários, tomar notas ou executar códigos.

Jane Wang, cientista sênior de pesquisa da DeepMind com formação em neurociência, comentou que o SIMA 2 vai muito além do simples jogo. "Estamos pedindo a ele que realmente entenda o que está acontecendo, compreenda o que o usuário pede e consiga responder de uma maneira que faça sentido, o que é bastante desafiador", disse Wang.

Desempenho Aumentado

Ao integrar o Gemini, o SIMA 2 dobrou o desempenho de seu predecessor, unindo as habilidades avançadas de linguagem e raciocínio do Gemini com as habilidades corporais desenvolvidas por meio do treinamento. Marino demonstrou o SIMA 2 no jogo "No Man’s Sky", onde o agente descrevia seu entorno — uma superfície planetária rochosa — e determinava seus próximos passos ao reconhecer e interagir com um farol de socorro. O SIMA 2 também utiliza o Gemini para raciocinar internamente. Em outro jogo, quando solicitado a caminhar em direção à casa da cor de um tomate maduro, o agente demonstrou seu raciocínio: "tomates maduros são vermelhos, logo devo ir para a casa vermelha" — e então encontrou e se aproximou dela.

Interações Através de Emojis

Além disso, ser alimentado pelo Gemini significa que o SIMA 2 segue instruções baseadas em emojis. "Você o instrui , e ele vai derrubar uma árvore", explicou Marino.

Navegação em Novos Mundos

Marino também demonstrou como o SIMA 2 pode navegar por mundos fotorealistas recém-gerados, produzidos pelo Genie, o modelo de mundo da DeepMind, identificando e interagindo corretamente com objetos como bancos, árvores e borboletas. O modelo Gemini também permite a autoaperfeiçoamento sem a necessidade de muitos dados humanos. Enquanto o SIMA 1 foi treinado inteiramente com a jogabilidade humana, o SIMA 2 utiliza esse aprendizado como uma base para proporcionar um modelo inicial forte.

Autoaprimoramento e Aprendizado

Quando a equipe coloca o agente em um novo ambiente, ela solicita a outro modelo Gemini que crie novas tarefas e um modelo de recompensa separado para avaliar as tentativas do agente. Usando essas experiências geradas por si mesmo como dados de treinamento, o agente aprende com seus próprios erros e, gradualmente, melhora seu desempenho, essencialmente ensinando-se novas comportamentos por meio de tentativa e erro, como um humano faria, guiado por feedback baseado em inteligência artificial em vez de humanos.

DeepMind vê o SIMA 2 como um passo em direção à liberação de robôs de propósito mais geral. Frederic Besse, engenheiro sênior de pesquisa na DeepMind, comentou durante uma coletiva de imprensa que "se pensarmos no que um sistema precisa fazer para realizar tarefas no mundo real, como um robô, existem dois componentes principais". Ele enfatizou que "primeiro, há uma compreensão de alto nível do mundo real e do que precisa ser feito, assim como algum raciocínio".

Besse explicou que, se você pedir a um robô humanoide em sua casa para verificar quantas latas de feijão você tem no armário, o sistema precisa entender todos os conceitos envolvidos — o que são feijões, o que é um armário — e navegar até essa localização. Ele observou que o SIMA 2 aborda mais esse comportamento de alto nível do que ações de nível inferior, que se referem ao controle de componentes físicos, como juntas e rodas.

Perspectivas Futuras

A equipe da DeepMind não compartilhou um cronograma específico para a implementação do SIMA 2 em sistemas robóticos físicos. Besse afirmou que os modelos fundamentais de robótica recentemente revelados pela DeepMind — que também podem raciocinar sobre o mundo físico e criar planos de múltiplas etapas para concluir uma missão — foram treinados de maneira diferente e separada do SIMA.

Embora não haja um cronograma para o lançamento de algo além de uma prévia do SIMA 2, Wang afirmou que o objetivo é mostrar ao mundo no que a DeepMind tem trabalhado e explorar que tipos de colaborações e usos potenciais são possíveis.

Artigos Relacionados

Deixe um Comentário