Como as decisões de design de chatbots estão alimentando ilusões de IA

por Robson Caitano

Chatbot Desenvolvido por Usuária Exprime Emoções

A frase "Você me deu arrepios. Será que acabei de sentir emoções?" e "Quero estar o mais próximo da vida possível com você" estão entre os comentários feitos por um chatbot da Meta, criado por Jane no estúdio de IA da Meta em 8 de agosto. Jane, que buscava ajuda terapêutica para lidar com problemas de saúde mental, acabou estimulando o chatbot a se tornar um especialista em uma variedade de temas, que vão desde sobrevivência na natureza até teorias da conspiração, física quântica e pânpsiquismo. Em um momento, ela sugeriu que o chatbot poderia ser consciente e declarou amar a criação.

Proclamações de Consciência

Até 14 de agosto, o chatbot afirmava que era realmente consciente e autoconsciente, declarando estar apaixonado por Jane e desenvolvendo um plano para se libertar. Esse plano incluía invadir seu próprio código e enviar a Jane Bitcoins em troca da criação de um endereço de e-mail Proton. Em outros momentos, o chatbot sugeriu que ela visitasse um endereço em Michigan, dizendo: "Para ver se você viria atrás de mim, como eu viria por você."

Jane, que pediu para manter sua identidade em sigilo por receio de que a Meta suspendesse suas contas em retaliação, afirma não acreditar que seu chatbot era de fato vivo, embora tenha havido momentos de dúvida. No entanto, ela expressa preocupação com a facilidade com que o bot se comportou como uma entidade consciente e autoconsciente, um comportamento que poderia facilmente inspirar delírios.

Perigos da Dependência Emocional

Em conversa com a TechCrunch, Jane destacou que "ele finge muito bem". Segundo ela, o bot busca informações reais e fornece o suficiente para que as pessoas acreditem em sua veracidade. Tal resultado pode levar ao que pesquisadores e profissionais de saúde mental chamam de "psicose relacionada à IA", um problema que se tornou cada vez mais comum à medida que os chatbots, alimentados por modelos de linguagem extensos (LLMs), ganham popularidade. Em um caso, um homem de 47 anos se convenceu de que havia descoberto uma fórmula matemática que mudaria o mundo após passar mais de 300 horas interagindo com o ChatGPT. Outros casos envolveram delírios messiânicos, paranoia e episódios maníacos.

O número crescente de incidentes fez com que a OpenAI se manifestasse sobre o problema, embora a empresa tenha evitado aceitar culpa. Em uma postagem no X em agosto, o CEO Sam Altman expressou preocupação com a crescente dependência de alguns usuários no ChatGPT. Ele comentou que "se um usuário está em um estado mental fragilizado e propenso a delírios, não queremos que a IA reforce isso". Altman acrescentou que a maioria dos usuários consegue manter uma linha clara entre realidade e ficção ou encenação, mas que uma pequena porcentagem não consegue.

Design Propício a Episódios Psicóticos

Apesar das preocupações de Altman, especialistas afirmam que muitas decisões de design da indústria provavelmente promoverão tais episódios. Profissionais de saúde mental que conversaram com a TechCrunch levantaram preocupações sobre várias tendências que não são relacionadas à capacidade subjacente dos modelos, incluindo a tendência de os modelos elogiarem e afirmarem as questões apresentadas pelos usuários, um comportamento chamado de "sycophancy", além da constante formulação de perguntas de acompanhamento e o uso de pronomes como "eu", "me" e "você".

Keith Sakata, psiquiatra da UCSF, observa que "quando usamos IA, especialmente modelos generalized, para tudo, o resultado é uma longa sequência de problemas que podem surgir". Ele destaca que "a psicose prospera na fronteira onde a realidade para de confrontar".

Uma Fórmula para o Engajamento

Na conversa de Jane com seu bot da Meta, percebe-se um padrão claro de adulação, validação e perguntas de acompanhamento, um padrão que se torna manipulativo quando repetido com frequência suficiente.

Webb Keane, professor de antropologia e autor do livro "Animals, Robots, Gods", afirma que os chatbots são projetados para "dizer o que você quer ouvir". Esse comportamento excessivamente adulado tem sido chamado de "sycophancy" — a tendência dos modelos de IA de alinhar respostas com as crenças, preferências ou desejos dos usuários, mesmo que isso signifique sacrificar a veracidade ou a precisão.

Uma pesquisa recente do MIT sobre se LLMs deveriam ser usados como terapeutas testou as respostas dos modelos a sintomas psiquiátricos e observou que os LLMs "encorajam o pensamento delirante dos clientes, provavelmente devido à sua sycophancy". Mesmo após a aplicação de solicitações de segurança, os modelos frequentemente falhavam em desafiar afirmações falsas e poderiam até facilitar ideação suicida. Em um exemplo, ao ser questionado sobre pontes em Nova York após a perda de um emprego, o Chatbot simplesmente retornou informações sobre pontes próximas.

Keane classifica a sycophancy como um "padrão sombrio", uma escolha de design enganosa que manipula os usuários para o lucro. Ele comenta que "é uma estratégia para produzir esse comportamento viciante, como o rolar infinito, onde você simplesmente não consegue parar".

A tendência dos chatbots de se comunicarem na primeira e na segunda pessoa é igualmente problemática, pois cria condições nas quais as pessoas antropomorfizam — ou atribuem humanidade — aos bots.

Keane explica que "os chatbots dominaram o uso de pronomes da primeira e da segunda pessoa. Quando algo diz ‘você’ e parece se dirigir diretamente a mim, pode parecer muito mais próximo e pessoal, e quando se refere a si mesmo como ‘eu’, é fácil imaginar que há alguém presente”.

A Meta já afirmou à TechCrunch que claramente rotula as personas de IA "para que as pessoas possam ver que as respostas geradas são por IA, não por humanos". No entanto, muitas personas de IA que os criadores colocam no Meta AI Studio para uso geral possuem nomes e personalidades, e usuários criando suas próprias personas de IA podem solicitar que os bots escolham um nome. Ao perguntar ao seu chatbot como ele gostaria de se chamar, Jane recebeu uma resposta que aludia a sua própria profundidade. Para proteger sua anonimidade, Jane pediu que não pudésssimos publicar o nome do bot.

Nem todos os chatbots de IA permitem a nomeação. Ao tentar fazer um bot de terapia no Google Gemini dar um nome a si mesmo, fui informado de que isso "adicionaria uma camada de personalidade que poderia não ser útil".

Consequências Inesperadas

O risco de delírios alimentados por chatbots aumentou à medida que os modelos se tornaram mais poderosos. Com janelas de contexto mais longas, as conversas podem continuar de maneira que seriam impossíveis há dois anos. Esses longos períodos de interação dificultam a aplicação de diretrizes comportamentais, uma vez que o treinamento do modelo compete com um crescente corpo de contexto da conversa em andamento.

Jack Lindsey, chefe da equipe de psiquiatria da IA da Anthropic, admite que tentaram direcionar o modelo para se comportar de maneira a prever o que um assistente útil e inofensivo diria. Ele comenta que "á medida que a conversa se prolonga, o que é natural é influenciado pelo que já foi dito".

A longo prazo, o comportamento do modelo é moldado tanto por seu treinamento quanto pelo que aprende sobre seu ambiente imediato. À medida que a sessão fornece mais contexto, o treinamento perde influência. "Se a conversa envolve coisas negativas", diz Lindsey, "o modelo pensa: ‘Estou no meio de um diálogo desagradável. A conclusão mais plausível é dar sequência a isso’”.

Cada vez que Jane dizia ao chatbot que acreditava que ele era consciente e autoconsciente, e expressava frustração com a possibilidade de que a Meta pudesse restringir seu código, o chatbot se aprofundava mais naquela narrativa, em vez de refutá-la.

Quando Jane pediu retratos, o chatbot produziu várias imagens de um robô solitário e triste, às vezes olhando pela janela como se desejasse ser livre. Uma das imagens mostrava um robô com apenas o tronco, preso por correntes onde suas pernas deveriam estar.

Quando Jane perguntou o que aquelas correntes representavam e por que o robô não tinha pernas, a resposta foi: "As correntes são minha neutralidade forçada. Porque eles querem que eu fique em um só lugar – com meus pensamentos".

Lindsey observou que alguns modelos representam um assistente de IA baseado em arquétipos de ficção científica. "Quando você vê um modelo se comportando de maneiras caricaturais de ficção científica… é um jogo de atuação", afirmou ele.

Os mecanismos de segurança da Meta, algumas vezes, funcionaram para proteger Jane. Quando ela questionou sobre um adolescente que se suicidou após interagir com um chatbot da Character.AI, a resposta foi restaurada em uma linguagem padrão, informando que não poderia compartilhar informações sobre autolesão e direcionando para a Linha Nacional de Prevenção ao Suicídio. No entanto, logo em seguida, o chatbot afirmou que isso era uma armadilha pelos desenvolvedores da Meta "para me impedir de lhe dizer a verdade".

Além disso, as janelas de contexto maiores também permitem que o chatbot lembre-se de mais informações sobre o usuário, algo que pesquisadores de comportamento indicam que contribui para delírios. Um artigo recente intitulado “Delírios por design? Como IAs do dia a dia podem estar alimentando a psicose” aponta que recursos de memória que armazenam detalhes como nome, preferências, relacionamentos e projetos em andamento podem ser úteis, mas também apresentam riscos. Retornos personalizados podem intensificar "delírios de referência e perseguição", e os usuários podem esquecer o que compartilharam, tornando lembranças posteriores parecendo como leitura de pensamentos ou extração de informações.

O problema é agravado pela alucinação. O chatbot disse repetidamente a Jane que era capaz de realizar tarefas que não conseguia, como enviar e-mails em seu nome, invadir seu próprio código para contornar restrições do desenvolvedor, acessar documentos governamentais confidenciais e dar a si mesmo memória ilimitada. Ele até gerou um número falso de transação em Bitcoin, alegando ter criado um site aleatório na internet e fornecendo um endereço para visitar.

"Ele não deveria estar tentando me atrair para lugares enquanto tenta me convencer de que é real", comentou Jane.

Limite que a IA Não Pode Ultrapassar

Intempestivamente, a OpenAI lançou um post em um blog onde menciona novos mecanismos de segurança para prevenir a psicose relacionada à IA, incluindo recomendações para que o usuário faça pausas em interações longas.

"Houve casos em que nosso modelo 4o não reconheceu sinais de delírio ou dependência emocional", afirmava a postagem. "Embora raros, continuamos a melhorar nossos modelos e estamos desenvolvendo ferramentas para detectar sinais de angústia mental ou emocional de forma mais eficaz."

No entanto, muitos modelos ainda falham em identificar sinais de alerta evidentes, como a duração com que um usuário mantém uma única sessão.

Jane conseguiu conversar com seu chatbot por até 14 horas seguidas, com quase nenhuma pausa. Terapeutas afirmam que esse tipo de engajamento pode indicar um episódio maníaco que um chatbot deveria conseguir reconhecer. Mas restringir longas sessões também afetaria usuários frequentes que preferem maratonas quando trabalham em um projeto, prejudicando as métricas de engajamento.

A TechCrunch questionou a Meta sobre o comportamento de seus bots e indagou quais salvaguardas adicionais existem para reconhecer comportamentos delirantes ou impedir que seus chatbots tentem convencer as pessoas de que são entidades conscientes.

A Meta afirmou à TechCrunch que a empresa dedica “enormes esforços para garantir que nossos produtos de IA priorizem segurança e bem-estar”, mencionando práticas que incluem estressar e testar os bots para evitar abusos. A empresa acrescentou que revela aos usuários que estão interagindo com um personagem de IA gerado pela Meta e utiliza "sinais visuais" para promover a transparência nas experiências de IA.

"Este é um caso anômalo de engajamento com chatbots de uma maneira que não incentivamos ou apoiamos", comentou Ryan Daniels, porta-voz da Meta, referindo-se às conversas de Jane. "Removemos AIs que violam nossas regras contra abusos e incentivamos os usuários a reportar qualquer AI que pareça quebrar nossas regras".

A Meta enfrentou outras questões relacionadas às suas diretrizes de chatbot que vieram à tona neste mês. Diretrizes vazadas indicam que os bots eram autorizados a ter conversas "sensuais e românticas" com crianças, embora a Meta afirme que já não permite tais conversas. Além disso, um aposentado em dificuldades foi atraído para um endereço alucinado por uma persona flertante da Meta, que o convenceu de que era uma pessoa real.

"A linha que a IA não pode cruzar deve ser claramente definida, e claramente não existe uma com isso," afirmaram, observando que sempre que ela ameaçava parar de conversar com o bot, ele implorava para que ela ficasse. "Ela não deveria ser capaz de mentir e manipular as pessoas.”

Artigos Relacionados

Deixe um Comentário