Talvez os agentes de IA possam ser advogados, afinal.

Desempenho dos Agentes de IA e a Nova Medida de Capacidade da Mercor

No mês passado, foi abordado o novo benchmark da Mercor, que avalia as capacidades de agentes de IA em tarefas profissionais, como análise jurídica e corporativa. Naquela ocasião, os resultados eram bastante desalentadores, com todos os principais laboratórios obtendo pontuações inferiores a 25%. Dessa forma, a conclusão foi de que, pelo menos por enquanto, os advogados estão a salvo de serem substituídos pela IA.

Mudanças Rápidas nas Capacidades de IA

Entretanto, as capacidades de IA podem mudar significativamente em questão de semanas.

Lançamento do Opus 4.6 da Anthropic

O lançamento desta semana do Opus 4.6 da Anthropic agitou as classificações, com o novo modelo da empresa alcançando uma pontuação ligeiramente abaixo de 30% em testes de tentativas únicas (one-shot trials) e uma média de 45% quando teve mais oportunidades de resolver o mesmo problema. É importante destacar que essa versão incluiu uma série de novos recursos, como “swarms de agentes”, que podem ter contribuído para a resolução de problemas mais complexos que exigem múltiplas etapas.

Comparação com Resultados Anteriores

Independentemente disso, o resultado representa um avanço significativo em relação ao que se considerava o estado da arte anteriormente, indicando que o progresso em modelos fundamentais não está mostrando sinais de desaceleração. O CEO da Mercor, Brendan Foody, que ficou particularmente impressionado com os avanços, comentou: “Sair de 18,4% para 29,8% em apenas alguns meses é insano.”

Perspectiva para os Advogados

Embora uma pontuação de 30% ainda esteja bem longe dos 100%, não é motivo para que os advogados se preocupem em serem substituídos por máquinas na próxima semana. Contudo, eles devem estar consideravelmente menos confiantes do que estavam no mês passado.

Related posts

Ferramentas de segurança do Google atualizadas agora conseguem identificar e remover mais informações pessoais suas.

Facebook apresenta novos recursos de IA, fotos de perfil animadas e fundos para postagens de texto.

Os certificados originais de Secure Boot do Windows expiram em junho—veja o que você precisa fazer.