Inteligência Física e o Avanço em Robótica
A startup de robótica, Physical Intelligence, com sede em San Francisco e apenas dois anos de vida, tornou-se um dos focos mais observados entre as empresas de inteligência artificial na região da Bay Area. Recentemente, a empresa publicou uma nova pesquisa que revela que seu modelo mais recente pode orientar robôs a realizarem tarefas para as quais não foram explicitamente treinados. Essa capacidade, segundo os próprios pesquisadores da empresa, os surpreendeu.
O Modelo π0.7
O novo modelo, denominado π0.7, representa o que a empresa descreve como um passo inicial, mas significativo, em direção ao desejado objetivo de um cérebro robótico de uso geral. Esse tipo de sistema é capaz de ser direcionado para uma tarefa desconhecida, ser orientado em linguagem simples e realmente executá-la. Se as descobertas forem confirmadas, sugerem que a inteligência artificial robótica pode estar se aproximando de um ponto de inflexão similar ao observado com os grandes modelos de linguagem, onde as capacidades começam a se acumular de formas que superam as previsões baseadas nos dados subjacentes.
Generalização Composicional
A afirmação central no estudo é a generalização composicional, que se refere à habilidade de combinar habilidades adquiridas em diferentes contextos para resolver problemas que o modelo nunca encontrou antes. Tradicionalmente, a abordagem padrão para o treinamento de robôs era essencialmente a memorização mecânica: coletar dados de uma tarefa específica, treinar um modelo especializado com esses dados e depois repetir esse processo para cada nova tarefa. A Physical Intelligence afirma que o π0.7 quebra esse padrão.
Sergey Levine, cofundador da Physical Intelligence e professor da UC Berkeley focado em inteligência artificial para robótica, explica que, uma vez que o modelo ultrapassa a limitação de executar somente as tarefas para as quais os dados foram coletados, e passa a remexer essas informações de maneiras novas, as capacidades aumentam mais que linearmente com a quantidade de dados. Esse tipo de propriedade de escalabilidade é algo que já foi observado em outros domínios, como linguagem e visão.
Demonstração com a Air Fryer
A demonstração mais notável do estudo envolve uma fritadeira elétrica que o modelo nunca havia visto durante o treinamento. A equipe de pesquisa encontrou apenas dois episódios relevantes em todo o conjunto de dados de treinamento: um onde um robô diferente apenas fechou a fritadeira e outro de um conjunto de dados de código aberto onde outro robô colocou uma garrafa plástica dentro de uma fritadeira a partir de instruções dadas. O modelo conseguiu juntar esses fragmentos, além de dados coletados na web, formando um entendimento funcional de como o aparelho opera.
A pesquisadora da Physical Intelligence, Lucy Shi, que também é doutoranda em Ciência da Computação na Stanford, afirma que é muito difícil rastrear a origem do conhecimento adquirido ou prever onde o modelo terá sucesso ou falhará. Contudo, sem qualquer tipo de orientação, o modelo conseguiu realizar uma tentativa razoável de usar o aparelho para cozinhar uma batata-doce. Com instruções verbais passo a passo — essencialmente, um humano orientando o robô à tarefa como se explicasse algo a um novo funcionário — o robô executou a tarefa com sucesso.
Importância da Capacitação por Orientação
Essa capacidade de coaching é relevante, pois indica que os robôs poderiam ser implantados em novos ambientes e aperfeiçoados em tempo real, sem a necessidade de coleta adicional de dados ou re-treinamento do modelo.
Limitações do Modelo
Os pesquisadores estão cientes das limitações do modelo e são cautelosos para não exagerar em suas capacidades. Em pelo menos um caso, eles atribuem a responsabilidade de falhas à própria equipe de pesquisa.
Lucy Shi menciona um experimento inicial com a fritadeira, que resultou em uma taxa de sucesso de 5%. Após dedicar cerca de meia hora para refinar a maneira como a tarefa foi explicada ao modelo, essa taxa saltou para 95%.
O modelo ainda não é capaz de executar tarefas complexas em múltiplos passos de forma autônoma a partir de um único comando de nível elevado. Sergey Levine observa que não se pode simplesmente instruí-lo com um “Ei, faça um torrado.” Ao invés disso, é necessário guiá-lo passo a passo, dizendo “para a torradeira, abra esta parte, pressione esse botão e faça isso”, e, dessa forma, o robô tende a funcionar bem.
Desafios e Validação
A equipe reconheceu que não existem benchmarks padronizados para robótica, o que dificulta a validação externa de suas alegações. Em vez disso, a empresa avaliou o π0.7 em comparação com seus modelos anteriores especializados — sistemas projetados e treinados para tarefas individuais — e verificou que o modelo generalista igualou seu desempenho em uma variedade de trabalhos complexos, que incluíram fazer café, dobrar roupas e montar caixas.
Surpresas na Pesquisa
O que pode ser mais notável sobre a pesquisa — se os pesquisadores estiverem sendo sinceros — não é uma única demonstração, mas a medida em que os resultados os surpreenderam, mesmo sendo profissionais cujo trabalho é saber exatamente quais dados estão no treinamento e, portanto, o que o modelo deveria e não deveria ser capaz de fazer.
Ashwin Balakrishna, um cientista de pesquisa na Physical Intelligence, comenta que, em sua experiência, quando ele conhece profundamente o que está nos dados, consegue prever o que o modelo será capaz de fazer. "Raramente fico surpreso. Mas nos últimos meses, essa tem sido a primeira vez em que realmente fiquei surpreso. Eu apenas comprei um conjunto de engrenagens aleatoriamente e perguntei ao robô ‘Ei, você consegue girar essa engrenagem?’ E funcionou.”
Referências a Modelos de Linguagem
Levine relembra o momento em que os pesquisadores encontraram o GPT-2 gerando uma história sobre unicórnios nos Andes. “De onde, raios, ele aprendeu sobre unicórnios no Peru?” ele questiona. “É uma combinação tão estranha. E eu acho que ver isso na robótica é realmente especial.”
Naturalmente, críticos poderão apontar uma assimetria desconfortável nessa situação: enquanto os modelos de linguagem tiveram acesso a toda a internet para aprender, os robôs não possuem essa mesma vantagem, e nenhuma quantidade de orientações astutas poderá fechar completamente essa lacuna. Contudo, quando questionado sobre onde ele espera a ceticismo, Levine aponta para um aspecto diferente.
Críticas e Expectativas Futuras
“É uma crítica que sempre pode ser feita a qualquer demonstração de generalização robótica, que as tarefas são meio entediantes,” ele afirma. “O robô não está fazendo um backflip.” Ele contesta essa perspectiva, argumentando que a distinção entre uma demonstração impressionante e um sistema robótico que realmente generaliza é precisamente o ponto. Ele sugere que a generalização, por sua natureza, sempre parecerá menos dramática do que uma manobra cuidadosamente coreografada, mas é consideravelmente mais útil.
O artigo utiliza uma linguagem cautelosa ao longo de todo o documento, descrevendo o π0.7 como apresentando "sinais iniciais" de generalização e "demonstrações iniciais" de novas capacidades. Trata-se de resultados de pesquisa, não de um produto já lançado no mercado.
Quando questionado diretamente sobre quando um sistema baseado nessas descobertas poderá estar pronto para a implantação no mundo real, Levine preferiu não fazer especulações. “Acredito que há um bom motivo para ser otimista, e certamente está progredindo mais rapidamente do que eu esperava há alguns anos,” ele afirma. “Mas é muito difícil para mim responder a essa pergunta.”
Situação Financeira da Empresa
A Physical Intelligence arrecadou mais de $1 bilhão até agora e foi recentemente avaliada em $5,6 bilhões. Uma parte significativa do entusiasmo de investidores em relação à empresa se deve a Lachy Groom, um cofundador que passou anos como um dos investidores-anjo mais respeitados do Vale do Silício — apoiando empresas como Figma, Notion e Ramp, entre outras — antes de decidir que a Physical Intelligence era a companhia que buscava. Esse histórico ajudou a startup a atrair investimentos institucionais robustos, mesmo sem oferecer uma linha do tempo para a comercialização aos investidores.
Atualmente, a empresa está em discussões para uma nova rodada de investimentos que poderia quase dobrar essa avaliação, elevando-a para $11 bilhões. A equipe optou por não comentar sobre o assunto.