Inteligência Física, uma promissora startup de robótica no Brasil, afirma que seu novo cérebro robótico consegue resolver tarefas para as quais não foi treinado.

Robson Caitano16 de abril de 202600 vizualizações

Inteligência Física e o Avanço em Robótica

A startup de robótica, Physical Intelligence, com sede em San Francisco e apenas dois anos de vida, tornou-se um dos focos mais observados entre as empresas de inteligência artificial na região da Bay Area. Recentemente, a empresa publicou uma nova pesquisa que revela que seu modelo mais recente pode orientar robôs a realizarem tarefas para as quais não foram explicitamente treinados. Essa capacidade, segundo os próprios pesquisadores da empresa, os surpreendeu.

O Modelo π0.7

O novo modelo, denominado π0.7, representa o que a empresa descreve como um passo inicial, mas significativo, em direção ao desejado objetivo de um cérebro robótico de uso geral. Esse tipo de sistema é capaz de ser direcionado para uma tarefa desconhecida, ser orientado em linguagem simples e realmente executá-la. Se as descobertas forem confirmadas, sugerem que a inteligência artificial robótica pode estar se aproximando de um ponto de inflexão similar ao observado com os grandes modelos de linguagem, onde as capacidades começam a se acumular de formas que superam as previsões baseadas nos dados subjacentes.

Generalização Composicional

A afirmação central no estudo é a generalização composicional, que se refere à habilidade de combinar habilidades adquiridas em diferentes contextos para resolver problemas que o modelo nunca encontrou antes. Tradicionalmente, a abordagem padrão para o treinamento de robôs era essencialmente a memorização mecânica: coletar dados de uma tarefa específica, treinar um modelo especializado com esses dados e depois repetir esse processo para cada nova tarefa. A Physical Intelligence afirma que o π0.7 quebra esse padrão.

Sergey Levine, cofundador da Physical Intelligence e professor da UC Berkeley focado em inteligência artificial para robótica, explica que, uma vez que o modelo ultrapassa a limitação de executar somente as tarefas para as quais os dados foram coletados, e passa a remexer essas informações de maneiras novas, as capacidades aumentam mais que linearmente com a quantidade de dados. Esse tipo de propriedade de escalabilidade é algo que já foi observado em outros domínios, como linguagem e visão.

Demonstração com a Air Fryer

A demonstração mais notável do estudo envolve uma fritadeira elétrica que o modelo nunca havia visto durante o treinamento. A equipe de pesquisa encontrou apenas dois episódios relevantes em todo o conjunto de dados de treinamento: um onde um robô diferente apenas fechou a fritadeira e outro de um conjunto de dados de código aberto onde outro robô colocou uma garrafa plástica dentro de uma fritadeira a partir de instruções dadas. O modelo conseguiu juntar esses fragmentos, além de dados coletados na web, formando um entendimento funcional de como o aparelho opera.

A pesquisadora da Physical Intelligence, Lucy Shi, que também é doutoranda em Ciência da Computação na Stanford, afirma que é muito difícil rastrear a origem do conhecimento adquirido ou prever onde o modelo terá sucesso ou falhará. Contudo, sem qualquer tipo de orientação, o modelo conseguiu realizar uma tentativa razoável de usar o aparelho para cozinhar uma batata-doce. Com instruções verbais passo a passo — essencialmente, um humano orientando o robô à tarefa como se explicasse algo a um novo funcionário — o robô executou a tarefa com sucesso.

Importância da Capacitação por Orientação

Essa capacidade de coaching é relevante, pois indica que os robôs poderiam ser implantados em novos ambientes e aperfeiçoados em tempo real, sem a necessidade de coleta adicional de dados ou re-treinamento do modelo.

Limitações do Modelo

Os pesquisadores estão cientes das limitações do modelo e são cautelosos para não exagerar em suas capacidades. Em pelo menos um caso, eles atribuem a responsabilidade de falhas à própria equipe de pesquisa.

Lucy Shi menciona um experimento inicial com a fritadeira, que resultou em uma taxa de sucesso de 5%. Após dedicar cerca de meia hora para refinar a maneira como a tarefa foi explicada ao modelo, essa taxa saltou para 95%.

O modelo ainda não é capaz de executar tarefas complexas em múltiplos passos de forma autônoma a partir de um único comando de nível elevado. Sergey Levine observa que não se pode simplesmente instruí-lo com um “Ei, faça um torrado.” Ao invés disso, é necessário guiá-lo passo a passo, dizendo “para a torradeira, abra esta parte, pressione esse botão e faça isso”, e, dessa forma, o robô tende a funcionar bem.

Desafios e Validação

A equipe reconheceu que não existem benchmarks padronizados para robótica, o que dificulta a validação externa de suas alegações. Em vez disso, a empresa avaliou o π0.7 em comparação com seus modelos anteriores especializados — sistemas projetados e treinados para tarefas individuais — e verificou que o modelo generalista igualou seu desempenho em uma variedade de trabalhos complexos, que incluíram fazer café, dobrar roupas e montar caixas.

Surpresas na Pesquisa

O que pode ser mais notável sobre a pesquisa — se os pesquisadores estiverem sendo sinceros — não é uma única demonstração, mas a medida em que os resultados os surpreenderam, mesmo sendo profissionais cujo trabalho é saber exatamente quais dados estão no treinamento e, portanto, o que o modelo deveria e não deveria ser capaz de fazer.

Ashwin Balakrishna, um cientista de pesquisa na Physical Intelligence, comenta que, em sua experiência, quando ele conhece profundamente o que está nos dados, consegue prever o que o modelo será capaz de fazer. "Raramente fico surpreso. Mas nos últimos meses, essa tem sido a primeira vez em que realmente fiquei surpreso. Eu apenas comprei um conjunto de engrenagens aleatoriamente e perguntei ao robô ‘Ei, você consegue girar essa engrenagem?’ E funcionou.”

Referências a Modelos de Linguagem

Levine relembra o momento em que os pesquisadores encontraram o GPT-2 gerando uma história sobre unicórnios nos Andes. “De onde, raios, ele aprendeu sobre unicórnios no Peru?” ele questiona. “É uma combinação tão estranha. E eu acho que ver isso na robótica é realmente especial.”

Naturalmente, críticos poderão apontar uma assimetria desconfortável nessa situação: enquanto os modelos de linguagem tiveram acesso a toda a internet para aprender, os robôs não possuem essa mesma vantagem, e nenhuma quantidade de orientações astutas poderá fechar completamente essa lacuna. Contudo, quando questionado sobre onde ele espera a ceticismo, Levine aponta para um aspecto diferente.

Críticas e Expectativas Futuras

“É uma crítica que sempre pode ser feita a qualquer demonstração de generalização robótica, que as tarefas são meio entediantes,” ele afirma. “O robô não está fazendo um backflip.” Ele contesta essa perspectiva, argumentando que a distinção entre uma demonstração impressionante e um sistema robótico que realmente generaliza é precisamente o ponto. Ele sugere que a generalização, por sua natureza, sempre parecerá menos dramática do que uma manobra cuidadosamente coreografada, mas é consideravelmente mais útil.

O artigo utiliza uma linguagem cautelosa ao longo de todo o documento, descrevendo o π0.7 como apresentando "sinais iniciais" de generalização e "demonstrações iniciais" de novas capacidades. Trata-se de resultados de pesquisa, não de um produto já lançado no mercado.

Quando questionado diretamente sobre quando um sistema baseado nessas descobertas poderá estar pronto para a implantação no mundo real, Levine preferiu não fazer especulações. “Acredito que há um bom motivo para ser otimista, e certamente está progredindo mais rapidamente do que eu esperava há alguns anos,” ele afirma. “Mas é muito difícil para mim responder a essa pergunta.”

Situação Financeira da Empresa

A Physical Intelligence arrecadou mais de $1 bilhão até agora e foi recentemente avaliada em $5,6 bilhões. Uma parte significativa do entusiasmo de investidores em relação à empresa se deve a Lachy Groom, um cofundador que passou anos como um dos investidores-anjo mais respeitados do Vale do Silício — apoiando empresas como Figma, Notion e Ramp, entre outras — antes de decidir que a Physical Intelligence era a companhia que buscava. Esse histórico ajudou a startup a atrair investimentos institucionais robustos, mesmo sem oferecer uma linha do tempo para a comercialização aos investidores.

Atualmente, a empresa está em discussões para uma nova rodada de investimentos que poderia quase dobrar essa avaliação, elevando-a para $11 bilhões. A equipe optou por não comentar sobre o assunto.

Inteligência Física e o Avanço em Robótica

O Modelo π0.7

Generalização Composicional

Demonstração com a Air Fryer

Importância da Capacitação por Orientação

Limitações do Modelo

Desafios e Validação

Surpresas na Pesquisa

Referências a Modelos de Linguagem

Críticas e Expectativas Futuras

Situação Financeira da Empresa

Desempenho e qualidade de imagem: descubra tudo sobre o Intel Core 5 210H e sua experiência de uso

Avaliação completa do desempenho e recursos do smartphone com chipset MediaTek Helio G81

Related posts

O impacto profundo da guerra na Ucrânia no desenvolvimento e na narrativa de Metro 2039.

Novo cortador de cabos submarinos ameaça a espinha dorsal da Internet no Brasil

O assistente de IA do Canva agora pode acessar diversas ferramentas para criar designs para você.