Desempenho dos Agentes de IA e a Nova Medida de Capacidade da Mercor
No mês passado, foi abordado o novo benchmark da Mercor, que avalia as capacidades de agentes de IA em tarefas profissionais, como análise jurídica e corporativa. Naquela ocasião, os resultados eram bastante desalentadores, com todos os principais laboratórios obtendo pontuações inferiores a 25%. Dessa forma, a conclusão foi de que, pelo menos por enquanto, os advogados estão a salvo de serem substituídos pela IA.
Mudanças Rápidas nas Capacidades de IA
Entretanto, as capacidades de IA podem mudar significativamente em questão de semanas.
Lançamento do Opus 4.6 da Anthropic
O lançamento desta semana do Opus 4.6 da Anthropic agitou as classificações, com o novo modelo da empresa alcançando uma pontuação ligeiramente abaixo de 30% em testes de tentativas únicas (one-shot trials) e uma média de 45% quando teve mais oportunidades de resolver o mesmo problema. É importante destacar que essa versão incluiu uma série de novos recursos, como “swarms de agentes”, que podem ter contribuído para a resolução de problemas mais complexos que exigem múltiplas etapas.
Comparação com Resultados Anteriores
Independentemente disso, o resultado representa um avanço significativo em relação ao que se considerava o estado da arte anteriormente, indicando que o progresso em modelos fundamentais não está mostrando sinais de desaceleração. O CEO da Mercor, Brendan Foody, que ficou particularmente impressionado com os avanços, comentou: “Sair de 18,4% para 29,8% em apenas alguns meses é insano.”
Perspectiva para os Advogados
Embora uma pontuação de 30% ainda esteja bem longe dos 100%, não é motivo para que os advogados se preocupem em serem substituídos por máquinas na próxima semana. Contudo, eles devem estar consideravelmente menos confiantes do que estavam no mês passado.