A OpenAI afirma que navegadores de IA podem estar sempre suscetíveis a ataques de injeção de comandos.

Ameaças de Injeção de Prompt em Navegadores de IA

Risco Persistente de Injeções de Prompt

Embora a OpenAI esteja trabalhando para reforçar a segurança de seu navegador Atlas AI contra ciberataques, a empresa reconhece que as injeções de prompt, um tipo de ataque que manipula agentes de IA para seguir instruções maliciosas frequentemente ocultas em páginas da web ou e-mails, representam um risco que não desaparecerá tão cedo. Isso levanta questões sobre a segurança com que os agentes de IA podem operar na web aberta.

A OpenAI afirmou em um post no blog, publicado na segunda-feira, que “a injeção de prompt, assim como fraudes e engenharia social na web, provavelmente nunca será totalmente ‘resolvida’.” Além disso, a empresa admitiu que o “modo agente” no ChatGPT Atlas “amplia a superfície de ameaça à segurança.”

Demonstrações e Desafios

A OpenAI lançou seu navegador ChatGPT Atlas em outubro, e pesquisadores de segurança se apressaram em publicar demonstrações que mostravam ser possível escrever algumas palavras em Google Docs que poderiam mudar o comportamento do navegador subjacente. Nesse mesmo dia, a Brave publicou um post em seu blog, explicando que a injeção de prompt indireta é um desafio sistemático para navegadores alimentados por IA, incluindo o Comet da Perplexity.

A OpenAI não está sozinha ao reconhecer que as injeções baseadas em prompt não desaparecerão. O Centro Nacional de Segurança Cibernética do Reino Unido, no início deste mês, alertou que os ataques de injeção de prompt contra aplicações de IA generativa “nunca poderão ser totalmente mitigados”, colocando websites em risco de sofrer violações de dados. A agência governamental britânica aconselhou os profissionais de cibersegurança a reduzir o risco e o impacto das injeções de prompt, em vez de acreditar que os ataques podem ser “interrompidos.”

Compromisso da OpenAI

Em sua avaliação, a OpenAI declarou: “Nós consideramos a injeção de prompt um desafio de segurança de IA a longo prazo, e precisamos continuamente fortalecer nossas defesas contra isso.”

Como resposta a essa tarefa complexa, a empresa implementou um ciclo de resposta rápida e proativa que, segundo afirma, tem mostrado resultados iniciais promissores ao ajudar a descobrir novas estratégias de ataque internamente antes de serem exploradas “no mundo real.”

Táticas de Outros Rivais

Essa abordagem não é completamente diferente do que rivais como Anthropic e Google têm mencionado: para combater o risco persistente de ataques baseados em prompt, as defesas devem ser em camadas e continuamente testadas sob estresse. O trabalho recente do Google, por exemplo, foca em controles de nível arquitetural e de políticas para sistemas agenticos.

Atacante Automatizado de Aprendizado por Reforço

Entretanto, onde a OpenAI adota uma abordagem diferente é em sua “invasão automatizada baseada em LLM.” Este invasor é essencialmente um bot que a OpenAI treinou usando aprendizado por reforço, para atuar como um hacker que busca maneiras de inserir instruções maliciosas em um agente de IA.

O bot pode testar o ataque em simulação antes de utilizá-lo na prática, e o simulador demonstra como a IA-alvo pensaria e quais ações tomaria ao perceber o ataque. O bot pode então estudar essa resposta, ajustar o ataque e tentar novamente. Essa percepção do raciocínio interno da IA-alvo é algo que os atacantes externos não têm acesso, portanto, teoricamente, o bot da OpenAI deveria ser capaz de identificar falhas mais rapidamente do que um atacante do mundo real.

É uma tática comum nos testes de segurança de IA: construir um agente para encontrar os limites e testar contra eles rapidamente em simulações.

Observações da OpenAI

“Nossa [invasão treinada por aprendizado por reforço] pode direcionar um agente a executar fluxos de trabalho nocivos complexos de longo prazo que se desdobram ao longo de dezenas (ou até centenas) de etapas,” destacou a OpenAI. “Também observamos estratégias de ataque novas que não apareceram em nossa campanha de teste de penetração humana ou em relatórios externos.”

Demonstração de Ataque

Em uma demonstração, a OpenAI mostrou como seu invasor automatizado inseriu um e-mail malicioso na caixa de entrada de um usuário. Quando a IA analisou a caixa de entrada posteriormente, seguiu as instruções ocultas no e-mail e enviou uma mensagem de demissão em vez de redigir uma resposta automática de ausência. No entanto, após a atualização de segurança, o “modo agente” foi capaz de detectar com sucesso a tentativa de injeção de prompt e sinalizá-la para o usuário, de acordo com a empresa.

Medidas de Segurança e Testes

Embora a OpenAI afirme que as injeções de prompt são difíceis de se proteger de uma forma totalmente infalível, está confiando em testes em larga escala e ciclos de correção mais rápidos para reforçar seus sistemas antes que eles apareçam em ataques reais.

Um porta-voz da OpenAI se recusou a comentar se a atualização na segurança do Atlas resultou em uma redução mensurável nas injeções bem-sucedidas, mas afirmou que a empresa tem trabalhado com terceiros para fortalecer o Atlas contra injeções de prompt desde antes do lançamento.

Reflexão sobre Riscos de Navegadores

Rami McCarthy, pesquisador principal de segurança na empresa de cibersegurança Wiz, afirmou que o aprendizado por reforço é uma maneira de se adaptar continuamente ao comportamento dos atacantes, mas que é apenas uma parte da questão. “Uma forma útil de raciocinar sobre o risco em sistemas de IA é a autonomia multiplicada pelo acesso,” disse McCarthy.

Os navegadores agenticos tendem a estar em uma parte desafiadora desse espaço: autonomia moderada combinada com acesso muito elevado, segundo McCarthy. “Muitas recomendações atuais refletem esse trade-off. Limitar o acesso logado reduz principalmente a exposição, enquanto exigir revisão de solicitações de confirmação restringe a autonomia.”

Recomendações da OpenAI para Usuários

Essas são duas das recomendações da OpenAI para que os usuários reduzam seu próprio risco. Um porta-voz disse que o Atlas também é treinado para obter a confirmação do usuário antes de enviar mensagens ou realizar pagamentos. A OpenAI também sugere que os usuários forneçam instruções específicas aos agentes, em vez de permitir acesso à caixa de entrada e dizer a eles para “tomar qualquer ação necessária.”

“Uma ampla latitude facilita que conteúdos ocultos ou maliciosos influenciem o agente, mesmo quando as salvaguardas estão em vigor,” de acordo com a OpenAI.

Embora a OpenAI afirme que a proteção dos usuários do Atlas contra injeções de prompt seja uma prioridade máxima, McCarthy sugere um certo grau de ceticismo quanto ao retorno sobre investimento em navegadores propensos a riscos.

Críticas ao Potencial de Navegadores Agenticos

“Para a maioria dos casos de uso cotidiano, navegadores agenticos ainda não oferecem valor suficiente para justificar seu perfil de risco atual,” declarou McCarthy. “O risco é alto, dado o acesso a dados sensíveis como e-mails e informações de pagamento, embora esse acesso seja também o que os torna poderosos. Esse equilíbrio irá evoluir, mas hoje os trade-offs ainda são muito reais.”

Related posts

O serviço de streaming Howdy, da Roku, atinge 1 milhão de assinantes, segundo um relatório recente.

Google Fotos utiliza inteligência artificial para tornar o icônico guarda-roupa de ‘Clueless’ uma realidade.

A Nvidia resolve o problema de 8GB de RAM em uma de suas GPUs—se você puder arcar com o custo.