OpenAI afirma que o GPT-5 se compara aos humanos em diversas funções profissionais.

por Robson Caitano

OpenAI Lança Novo Benchmark para Testar Desempenho de Modelos de IA

Introdução ao GDPval

Na quinta-feira, a OpenAI anunciou o lançamento de um novo benchmark destinado a avaliar o desempenho de seus modelos de IA em comparação com profissionais humanos em diversos setores e ocupações. O teste, denominado GDPval, representa uma tentativa inicial de compreender o quão próximo os sistemas da OpenAI estão de superar humanos em tarefas economicamente valiosas. Esta avaliação é uma parte fundamental da missão da empresa de desenvolver inteligência geral artificial, conhecida como AGI.

Desempenho do Modelo

A OpenAI informou que seu modelo GPT-5 e o Claude Opus 4.1 da Anthropic "já estão se aproximando da qualidade do trabalho produzido por especialistas da indústria."

Limitações do Benchmark

Entretanto, isso não significa que os modelos da OpenAI começarão a substituir os humanos em seus empregos de imediato. Apesar das previsões feitas por alguns CEOs de que a IA tomará as posições dos trabalhadores humanos em poucos anos, a OpenAI admite que o GDPval atualmente abrange um número muito limitado de tarefas que os profissionais realizam em suas funções reais. Contudo, esse benchmark é uma das mais recentes formas que a empresa encontrou para medir o progresso da IA rumo a essa meta.

Setores Avaliados

O GDPval é baseado em nove indústrias que mais contribuem para o produto interno bruto (PIB) dos Estados Unidos, incluindo áreas como saúde, finanças, manufatura e governo. O benchmark testou o desempenho de um modelo de IA em 44 ocupações dentro dessas indústrias, que vão desde engenheiros de software até enfermeiros e jornalistas.

Metodologia do Teste

Para a primeira versão do teste, chamada GDPval-v0, a OpenAI solicitou que profissionais experientes comparassem relatórios gerados por IA com aqueles produzidos por outros especialistas. Eles deveriam, então, escolher o melhor documento. Por exemplo, uma das orientações pediu que banqueiros de investimento criassem um panorama competitivo para a indústria de entrega de última milha e comparassem seus resultados com os relatórios gerados por IA. A OpenAI, então, calculou a média da "taxa de vitória" de um modelo de IA em relação aos relatórios humanos, considerando todas as 44 ocupações.

Desempenho do GPT-5

Para a versão aprimorada do GPT-5, denominada GPT-5-high, a empresa afirmou que o modelo de IA foi classificado como melhor ou comparável a especialistas da indústria em 40,6% das vezes.

Desempenho do Claude Opus 4.1

A OpenAI também testou o modelo Claude Opus 4.1 da Anthropic, que foi classificado como melhor ou igual a especialistas da indústria em 49% das tarefas. A OpenAI acredita que esse desempenho elevado do Claude se deve à sua tendência em gerar gráficos agradáveis, em vez de apenas ao desempenho bruto.

Limitações das Avaliações

É importante observar que a maioria dos profissionais em atividade realiza uma gama muito mais ampla de tarefas do que simplesmente submeter relatórios de pesquisa a seus superiores, que é o único aspecto avaliado por GDPval-v0. A OpenAI reconhece essa limitação e afirma que pretende desenvolver testes mais robustos no futuro, que possam abranger mais indústrias e fluxos de trabalho interativos.

Avaliação do Progresso

Ainda assim, a empresa considera que os avanços observados no GDPval são notáveis. Em entrevista ao TechCrunch, o economista-chefe da OpenAI, Dr. Aaron Chatterji, afirmou que os resultados do GDPval sugerem que as pessoas nessas funções agora podem utilizar modelos de IA para dedicar tempo a tarefas de maior significado.

"Como o modelo está se tornando mais competente em algumas dessas atividades," diz Chatterji, "as pessoas nesses trabalhos podem agora usar o modelo, à medida que suas capacidades melhoram, para delegar parte de sua carga de trabalho e se concentrar em coisas potencialmente de maior valor."

Expectativas para o Futuro

Tejal Patwardhan, responsável pelas avaliações da OpenAI, comentou ao TechCrunch sua satisfação com a rapidez do progresso no GDPval. O modelo GPT-4o da OpenAI obteve apenas 13,7% de acertos (vitórias e empates em relação aos humanos) quando foi lançado cerca de 15 meses atrás. Neste novo momento, o GPT-5 apresenta quase o triplo desses resultados, uma tendência que Patwardhan espera continuar.

Benchmarks no Vale do Silício

O Vale do Silício possui uma variedade de benchmarks utilizados para medir o progresso de modelos de IA e avaliar se um determinado modelo é considerado o estado da arte. Entre os mais reconhecidos estão o AIME 2025, que testa problemas de matemática competitivos, e o GPQA Diamond, que avalia questões de ciência em nível de doutorado. Contudo, vários modelos de IA estão se aproximando da saturação em alguns desses benchmarks, e muitos pesquisadores da área destacaram a necessidade de testes melhores que possam medir a proficiência da IA em tarefas do mundo real.

Importância do GDPval

Benchmarks como o GDPval podem se tornar cada vez mais importantes nesse debate, à medida que a OpenAI argumenta que seus modelos de IA são valiosos para uma variedade de indústrias. No entanto, a OpenAI pode precisar de uma versão mais completa do teste para afirmar de forma definitiva que seus modelos de IA conseguem superar os humanos.

Artigos Relacionados

Deixe um Comentário