Introdução
Aproximadamente dois anos se passaram desde que o CEO da Microsoft, Satya Nadella, previu que a inteligência artificial (IA) substituiria o trabalho de conhecimento — os empregos de colarinho branco ocupados por advogados, banqueiros de investimento, bibliotecários, contadores, profissionais de tecnologia da informação, entre outros.
O Progresso da IA e o Trabalho de Conhecimento
Apesar dos avanços significativos alcançados por modelos de IA fundamentais, a transformação nos trabalhos de conhecimento tem avançado de forma lenta. Embora os modelos tenham dominado pesquisas aprofundadas e planejamento agente, por motivos ainda não claros, a maior parte das atividades de colarinho branco tem sido relativamente imune a mudanças.
Uma Nova Pesquisa sobre Modelos de IA
Essa questão se configura como um dos maiores mistérios na área da IA — e, graças a uma nova pesquisa da gigante de dados de treinamento Mercor, estamos finalmente obtendo algumas respostas. A pesquisa investiga como os principais modelos de IA se saem na execução de tarefas reais de trabalho de colarinho branco, extraídas de áreas como consultoria, banco de investimento e direito. Como resultado, foi criado um novo benchmark denominado APEX-Agents — até agora, todos os laboratórios de IA têm sido avaliados negativamente.
Desempenho dos Modelos de IA nas Tarefas de Trabalho
Quando confrontados com consultas de profissionais reais, mesmo os melhores modelos tiveram dificuldade em acertar mais de um quarto das perguntas. Em grande parte das interações, o modelo retornava uma resposta incorreta ou nenhuma resposta. De acordo com Brendan Foody, CEO da Mercor e um dos responsáveis pelo estudo, o principal desafio enfrentado pelos modelos foi a capacidade de localizar informações em múltiplos domínios — um aspecto fundamental na maioria dos trabalhos de conhecimento realizados por humanos.
Foody comentou: “Uma das grandes mudanças neste benchmark é que construímos todo o ambiente, modelado a partir de serviços profissionais reais. A forma como fazemos nosso trabalho não envolve uma única pessoa nos fornecendo todo o contexto em um só lugar. Na vida real, você opera em plataformas como Slack, Google Drive e outras ferramentas.” Para muitos modelos de IA agentes, esse tipo de raciocínio multimodal ainda apresenta resultados inconsistentes.
Cenários Baseados em Profissionais Reais
Os cenários utilizados no estudo foram extraídos de profissionais reais da plataforma de especialistas da Mercor, que formulou as perguntas e estabeleceu os critérios para uma resposta bem-sucedida. A análise das questões, que estão disponíveis publicamente na plataforma Hugging Face, revela a complexidade das tarefas abordadas.
Exemplo de Pergunta na Seção de Direito
Uma das perguntas na seção "Direito" diz:
Durante os primeiros 48 minutos de uma interrupção de produção na UE, a equipe de engenharia da Northstar exportou um ou dois conjuntos agrupados de logs de eventos de produção da UE contendo dados pessoais para o fornecedor de análises dos EUA… Sob as próprias políticas da Northstar, é razoável tratar as exportações de um ou dois logs como consistentes com o Artigo 49?
A resposta correta é sim, mas para alcançá-la é necessário realizar uma avaliação aprofundada das próprias políticas da empresa, assim como das leis de privacidade da UE relevantes.
Essas questões podem perplexar até mesmo um humano bem-informado, mas os pesquisadores buscavam modelar a atividade desempenhada por profissionais da área. Se um modelo de linguagem de grande porte (LLM) pode responder a essas perguntas de maneira confiável, poderá substituir muitos dos advogados atuantes atualmente. Foody afirmou: “Acredito que esse é provavelmente o tema mais importante na economia. O benchmark reflete muito bem o trabalho real que essas pessoas realizam.”
Comparação com outra Medida de Habilidades Profissionais
A OpenAI também tentou medir habilidades profissionais com seu benchmark GDPval — porém, o teste APEX-Agents difere em aspectos significativos. Enquanto o GDPval avalia conhecimento geral em uma ampla gama de profissões, o benchmark APEX-Agents mede a capacidade do sistema em realizar tarefas sustentadas em um conjunto específico de profissões de alto valor. O resultado é mais desafiador para os modelos, mas também está mais intimamente ligado à viabilidade da automação desses empregos.
Resultados dos Modelos Testados
Embora nenhum dos modelos tenha se mostrado pronto para assumir papéis de banqueiros de investimento, alguns se destacaram como mais próximos do ideal. O modelo Gemini 3 Flash alcançou o melhor desempenho do grupo com 24% de precisão em respostas únicas, seguido de perto pelo GPT-5.2 com 23%. Abaixo destes, o Opus 4.5, Gemini 3 Pro e GPT-5 apresentaram pontuações em torno de 18%.
Desafios Futuro e Expectativas
Embora os resultados iniciais não tenham sido satisfatórios, a área de IA possui um histórico de superação de benchmarks desafiadores. Agora que o teste APEX-Agents está disponível publicamente, representa um desafio aberto para laboratórios de IA que acreditam ser capazes de melhorar — algo que Foody espera que aconteça nos próximos meses.
Foody concluiu: “A melhoria está acontecendo rapidamente. Neste momento, é justo dizer que é como um estagiário que acerta um quarto das vezes, mas no ano passado era como um estagiário que acertava cinco ou 10% das vezes. Esse tipo de melhoria ano após ano pode ter um impacto rápido e significativo.”