Humanity's Last Exam, le "test de QI" que les IA les plus puissantes n'arrivent pas à battre
Dans la mythologie grecque, qui est l'arrière grand-père maternel de Jason ? Si vous séchez, peut-être préférerez-vous répondre à une question sur les syllabes fermées se terminant par une consonne en hébreu biblique, en vous basant sur la tradition de prononciation tibérienne. Voulez-vous plutôt tester votre connaissance des réactions en cascade péricyclique thermique d'ester méthylique ? Ou bien sur les chaînes de Markov et les graphes ?
Ces questions ne proviennent pas des annales d'examen d'une université d'élite, mais d'Humanity Last Exam. "Le dernier examen académique que nous voulons faire passer aux intelligences artificielles", précise Long Phan, chercheur en IA au Center of AI Safety et l'un des créateurs de ce test, pensé comme l'ultime frontière entre les humains et les machines.
Des questions de niveau doctorat
Les tests pour mesurer les capacités des AI, ou benchmarks, étaient utilisés bien avant l'arrivée de l'intelligence artificielle générative pour déterminer si des produits étaient prêts à être déployés. Mais avec l'arrivée des LLM, les large langage models qui propulsent les outils comme ChatGPT, ils ont vite été dépassés. MMLU, dévoilé en 2020, avait ainsi été conçu pour être plus difficile que les autres benchmarks, et testait les IA sur 16 000 questions demandant de la culture générale ainsi que des capacités de raisonnement. Dès sa sortie, en novembre 2022, ChatGPT 3.5 affichait néanmoins 70 % de bonnes réponses.
Les modèles suivants enchaînent les records sur MMLU. Capables de s'entraîner spécifiquement sur des jeux de données ou des questions précises, de "bachoter" des exercices en particulier ou de discourir sur des questions ouvertes, ces nouvelles IA ont rapidement saturé les résultats, en affichant des scores moyens de près de 90 % de réussite. "Avoir un très bon score à un test ne veut pas dire qu'une IA est un outil performant pour les utilisateurs", met en garde Hanan Ouazan, partenaire au sein du cabinet de conseil Artefact et spécialiste des IA.
Phan Long a créé Humanity's Last Exam ou "HLE" en 2024, avec le chercheur Dan Hendrycks, créateur de MMLU. Le duo affirme avoir été inspiré par une conversation avec Elon Musk. Dan Hendrycks qui est conseiller à la sécurité de l'IA de l'entreprise xAI du multimillairdaire l'aurait ainsi entendu se plaindre des questions de MMLU, trop simples à ses yeux pour rendre compte des derniers progrès des IA. Phan Long et Dan Hendrycks décident donc d'augmenter drastiquement la difficulté des questions.
Là où les autres tests posent beaucoup de questions d'un niveau équivalent au lycée ou à la licence, HLE se concentre sur un nombre réduit de problèmes complexes, de niveau doctorat. Aucune des questions ne doit avoir de réponse facilement accessible avec une recherche Internet. Toutes nécessitent des connaissances de pointe dans une centaine de domaines différents, des mathématiques à la linguistique en passant par la chimie, ainsi que de fortes capacités d'analyse.
Les questions posées ont été inventées pour l'occasion, avec l'aide d'un millier de professeurs de renom : le mathématicien Richard Stanley du MIT, le spécialiste des algorithmes David Aldous de Berkeley, Ciprian Manolescu de Stanford, ou encore le chercheur affilié à l'université de Montpellier, Alexander Shen… Toutes celles auxquelles les IA parvenaient à répondre lors des tests ont été supprimées de la liste finale, qui comprend 2 500 questions. Certaines nécessitent l'analyse d'images, d'autres sont à choix multiples, d'autres attendent de courtes réponses écrites.
Le résultat est d'une complexité impressionnante, même pour les intelligences artificielles les plus performantes. Au lancement, en janvier 2025, les modèles de pointe écopent de résultats abyssaux : Claude Sonnet 3.5 n'a que 4,1 % de bonnes réponses, Gemini 2.0 Flash 6,6 %, DeepSeek R1 8,5 %. ChatGPT o3-Mini a la meilleure note, avec un maigre 13,4 %. Bien loin des 90 % d'exactitude qu'ils affichaient sur MMLU. Pour être sûr que les laboratoires ne trichent pas en entraînant leur modèle sur les questions, le HLE a recours à deux techniques. La première, le "canary string", incorpore une sorte de filigrane dans les données du HLE afin de les filtrer des données d'entraînement des IA. Long Phan a également prévu un set de données "secrètes", qui sera révélé dans quelques mois. Il permettra de distinguer les modèles ayant eu de bons résultats parce qu'ils ont "triché", en s'entraînant avec les questions, de ceux qui ont véritablement des capacités de réflexion plus avancées.
Mesurer la puissance des IA, un enjeu de taille
"La sécurité de l'IA est au cœur de notre projet", ajoute Long Phan. "Et pour avoir la meilleure sécurité possible, il est essentiel de pouvoir précisément dire quels progrès les IA font, sur quel type de tâche, et sur quelle période". Le HLE donne une bonne indication de la capacité des modèles à acquérir du savoir très rapidement : un an après les premiers résultats, le record de ChatGPT a été largement battu. C'est désormais Gemini 3.1 Pro qui devance tous les autres modèles, avec le score de 45,9 %. Un bond impressionnant, essentiel à prendre en compte dans les conversations sur la sécurité de l'IA, estime Long Phan.
Mais, dans la vie de tous les jours, les résultats de HLE ne sont pas particulièrement scrutés par les professionnels. Les modèles testés, les plus puissants, sont aussi les plus chers, et ils ne sont donc pas forcément adaptés à tous les usages. "Nous faisons nos propres tests dans les environnements qui nous intéressent, pour voir quel est le meilleur rapport puissance / coût", pointe Charles Letaillieur, expert en IA chez Converteo.
Les benchmarks restent tout de même intéressants pour observer "la bataille entre les grandes puissances de l’IA", raconte Charles Letaillieur. Un temps leader, OpenAI a été battu par DeepSeek R1, puis par Gemini 2.5 Pro, puis par Grok 4, avant de reprendre la tête pour un temps. Depuis novembre 2025, les modèles Gemini mènent, largement, et les différentes versions de Claude, développées par Anthropic, le grand rival d'OpenAI, sont en embuscade. Enfin, les modèles d'IA chinois se font de plus en plus remarquer sur le podium : Kimi K2.5, avec 25,4 % d'exactitude, bat certains modèles de ChatGPT.
Sans compter que les agents, ces programmes pensés pour automatiser des tâches, ne sont pas compris dans le HLE. "Les benchmarks restent très théoriques, comme des tests de QI. Ils ne représentent pas la véritable utilisation en entreprise", ajoute Yann Lechelle, président de Probabl, une entreprise spécialisée dans le machine learning. Le HLE ne mesure pas la prise de décision, ni les chaînes d'action. Et même si quelques questions demandent d'analyser des images, le HLE se concentre fortement sur le format écrit, le rendant de fait caduc pour les world models, ces AI ambitionnant de comprendre l'intégralité du monde physique.
Malgré sa difficulté, le HLE pourrait-il être complètement battu un jour ? L'amélioration des IA, en à peine un an, est frappante, reconnaît Long Phan. Mais le chercheur s'y attendait : l'équipe du HLE avait prédit, en publiant ses recherches, qu'il était possible que des modèles approchent les 50 % d'exactitude à la fin de l'année 2025. "Les problèmes les plus faciles ont été résolus. Il va être intéressant désormais de voir les progrès dans les prochains mois sur les questions les plus difficiles". Dans leur publication, l'équipe du HLE estime que même les IA les plus avancées dans le futur n'arriveront pas à aller au-delà de 85 % de bonnes réponses. L'humanité n'a pas dit son dernier mot.

