Ferramenta avalia exatidão da Ia: conheça o benchmark humanitys last exam

Ferramenta busca medir exatidão de respostas da IA

Pesquisadores de diversos países, incluindo o Brasil, desenvolveram um banco de dados sofisticado para avaliar, com alto grau de precisão, o desempenho de sistemas de inteligência artificial (IA). Batizado de Humanity’s Last Exam (HLE, na sigla em inglês, Último Exame da Humanidade), o conjunto de testes reúne perguntas complexas de diferentes áreas do conhecimento, com o objetivo de medir até onde os modelos de IA conseguem chegar em termos de raciocínio e precisão de respostas. O funcionamento da ferramenta foi detalhado em um artigo publicado na revista científica Nature, o que reforça sua relevância no cenário internacional.

O HLE foi concebido como um grande exame interdisciplinar, voltado a temas como ciências naturais, matemática, humanidades e outros domínios fundamentais do saber humano. Ao todo, são cerca de 2.500 questões, curadas e formuladas em nível de especialista, pensadas especificamente para colocar os modelos de IA diante de desafios comparáveis aos que um humano altamente treinado enfrentaria. O banco de questões está disponível para uso público, permitindo que laboratórios de pesquisa, empresas de tecnologia e instituições públicas testem e comparem diferentes sistemas de IA.

Quem explica os objetivos da iniciativa é a pesquisadora Emily de Oliveira Santos, do Instituto de Ciências Matemáticas e de Computação (ICMC) da USP, em São Carlos, que participou diretamente do desenvolvimento do HLE. Segundo ela, a ideia central é estabelecer uma forma padronizada e robusta de acompanhar a evolução dos modelos de IA ao longo do tempo. Quando empresas que desenvolvem sistemas de propósito geral – como a OpenAI, com o ChatGPT – lançam novos modelos, normalmente apresentam tabelas de desempenho em vários benchmarks já conhecidos, como SWE-Bench, GPQA Diamond e FrontierMath. Agora, o HLE passa a integrar esse grupo de referências.

Benchmarks são coleções estruturadas de problemas ou tarefas desenhadas para medir capacidades específicas de um modelo, como raciocínio lógico, compreensão de linguagem, habilidade matemática ou domínio de um tema técnico. No caso do HLE, a proposta é ir além de avaliações pontuais e tentar construir aquilo que os autores chamam de um “benchmark supremo”: um teste tão abrangente e exigente que chegar perto de 100% de acerto seria, em tese, comparável a um desempenho humano em nível máximo em diversas áreas do conhecimento. Dessa forma, conforme novos modelos forem lançados, será possível comparar o quão superiores são em relação às versões anteriores com base em um padrão mais estável e exigente.

Um dos diferenciais do HLE é a forma como as questões foram concebidas. De acordo com Emily Santos, o conjunto de problemas foi estruturado para que cada pergunta tenha uma única resposta correta, objetiva e de fácil verificação. A ideia é evitar interpretações ambíguas, típicas de perguntas dissertativas amplas. Em grande parte dos casos, a solução é expressa como um número inteiro ou um valor igualmente simples de verificar. Isso garante que, se dois especialistas humanos resolverem a mesma questão, chegarão exatamente ao mesmo resultado, o que reduz a subjetividade na hora de avaliar os sistemas de IA.

Essa característica de resposta única facilita a criação de rotinas automáticas de correção. É possível escrever um script ou programa que submete, de forma padronizada, todas as perguntas do benchmark a um Modelo de Linguagem de Grande Porte (LLM, do inglês Large Language Model) – categoria na qual se encaixam sistemas como chatbots avançados. O modelo gera um texto com o raciocínio e, ao final, produz a resposta final. O script, então, extrai essa resposta e a compara com o gabarito oficial. A partir do percentual de acertos, calcula-se o desempenho do modelo em cada área e no conjunto total.

Embora grande parte das questões tenha forte componente científico – incluindo tópicos de física, matemática, biologia e outras disciplinas exatas – o HLE também incorpora perguntas ligadas a conhecimento geral e aspectos de senso comum. Isso inclui, por exemplo, temas de história da humanidade, conceitos básicos de mundo e informações amplamente aceitas sobre como as coisas funcionam no dia a dia. Essa escolha é importante para verificar não apenas o domínio técnico dos modelos, mas também sua capacidade de lidar com perguntas mais simples, porém fundamentais para uma boa interação com usuários leigos.

Outro ponto relevante é que o HLE não se limita a testar apenas conhecimento “enciclopédico”. Um dos objetivos é avaliar também a noção de agência dos modelos, isto é, a habilidade de planejar e descrever ações no mundo real. Emily Santos cita como exemplo uma questão que envolve a construção de um origami de tsuru, uma famosa dobradura em formato de pássaro. O problema pede que se faça o origami, depois se desfaça a dobradura e, em seguida, se conte em quantas regiões o papel foi particionado pelas marcas das dobras. Ainda que a IA não execute fisicamente a ação, ela precisa demonstrar capacidade de raciocinar sobre o processo, os passos e o resultado final.

Em campos de alta complexidade teórica, como mecânica quântica, o HLE também inclui questionamentos que exigem aplicação profunda de conceitos. A equação de Schrödinger, fundamental para descrever a evolução de sistemas quânticos, é um exemplo citado pela pesquisadora. As questões podem pedir, por exemplo, o cálculo de propriedades específicas de partículas ou sistemas físicos, algo que demanda não apenas memorização da fórmula, mas também habilidade para aplicar o formalismo matemático em contextos variados. Esse tipo de problema serve para testar se o modelo realmente “entende” o conteúdo em um nível avançado, comparável ao de um especialista acadêmico.

O fato de o HLE estar acessível ao público o torna uma ferramenta estratégica para diferentes frentes. Pesquisadoras e pesquisadores podem utilizá-lo para comparar arquiteturas de modelos, técnicas de treinamento ou ajustes finos, avaliando se certas mudanças realmente trazem ganhos concretos. Empresas de tecnologia podem recorrer ao benchmark para validar versões experimentais de seus sistemas antes de disponibilizá-los amplamente a usuários. Já governos e formuladores de políticas públicas podem usar os resultados para embasar debates sobre regulação, segurança e responsabilidade no uso de IA, tendo dados objetivos sobre o que esses sistemas são ou não capazes de fazer.

A participação brasileira no desenvolvimento do HLE também é um ponto de destaque. Ela demonstra que a pesquisa nacional em IA está conectada a projetos de fronteira e colabora em iniciativas internacionais de alto impacto. Instituições como o ICMC da USP, em São Carlos, vêm se consolidando como polos de excelência em matemática aplicada, ciência de dados e computação, ambientes em que a discussão sobre benchmarks, segurança e ética em IA é cada vez mais necessária. Isso abre espaço para que o país não apenas consuma tecnologias importadas, mas também contribua ativamente com padrões globais de avaliação.

Em um cenário em que modelos de IA são rapidamente integrados em serviços críticos – de atendimento ao cliente à análise de dados médicos e financeiros – a existência de métricas confiáveis para medir exatidão e capacidade se torna essencial. Sem benchmarks robustos, cresce o risco de superestimar o que essas ferramentas conseguem fazer, o que pode levar a decisões equivocadas, delegação excessiva de tarefas sensíveis às máquinas e aumento de vulnerabilidades em segurança digital. O HLE surge, nesse contexto, como um instrumento que ajuda a separar hype de desempenho real.

Outro benefício indireto de benchmarks como o HLE é a transparência. Embora empresas de tecnologia costumem divulgar números de performance, esses dados, muitas vezes, são obtidos com testes internos, pouco documentados. Ao adotar um conjunto de questões públicas, descritas em detalhes e acessíveis a qualquer pesquisador, a comunidade ganha uma base comum de comparação. Se dois modelos afirmam ter alto desempenho em um mesmo benchmark aberto, é possível confrontar resultados, analisar metodologias e replicar experimentos com mais confiança.

Vale lembrar, no entanto, que nenhum benchmark, por mais abrangente que seja, consegue esgotar todas as dimensões da inteligência humana. O próprio HLE, ainda que ambicioso, foca em tarefas acadêmicas, científicas e de raciocínio lógico, e não captura integralmente aspectos como criatividade artística, empatia, julgamento ético em contextos ambíguos ou habilidades práticas que dependem de interação física com o ambiente. Por isso, especialistas defendem que esses testes sejam vistos como ferramentas importantes, mas não como medida absoluta da “inteligência” de um modelo.

Na prática, a tendência é que o HLE se some a outros benchmarks já consolidados, compondo um ecossistema de testes complementares. Enquanto alguns se concentram em programação, outros em raciocínio matemático, provas padronizadas ou compreensão de texto. Juntos, eles ajudam a pintar um retrato mais completo das capacidades e limitações dos sistemas atuais. À medida que novas habilidades forem sendo exploradas em IA – como interação multimodal avançada, que combina texto, áudio, imagem e vídeo -, é provável que novos módulos e tipos de questão também sejam incorporados ao HLE ou a estruturas similares.

O avanço acelerado dos LLMs e de outras arquiteturas de IA torna esse tipo de iniciativa ainda mais urgente. Modelos lançados com poucos meses de diferença, hoje, já mostram saltos consideráveis de desempenho em tarefas complexas. Sem um “termômetro” estável, fica difícil entender se essas melhorias se traduzem em ganhos de confiabilidade, segurança e utilidade no mundo real. Ferramentas como o Humanity’s Last Exam, ao padronizar critérios e oferecer desafios em nível de especialista, ajudam a manter esse debate ancorado em dados concretos e comparáveis.

No horizonte, a própria existência de um benchmark chamado “Último Exame da Humanidade” provoca reflexão. O nome não sugere apenas um teste duro para as máquinas, mas também um espelho para nós mesmos: quais são, afinal, os conhecimentos e habilidades que consideramos centrais para definir o que é ser humano? Ao tentar condensar essa resposta em 2.500 perguntas cuidadosamente elaboradas, o HLE não só mede a exatidão das respostas da IA, como também coloca em discussão quais são os limites e as responsabilidades da inteligência artificial em uma sociedade cada vez mais digitalizada.