📝 IA & Psychométrie

ChatGPT a-t-il un QI de 155 ? Ce que la psychométrie en dit vraiment

Luc Ferry obtient 150, Roivainen 155. Un psychométricien décortique l’erreur méthodologique de contamination des données qui invalide ces scores.

15 mai 2026 · 15 min de lecture

Test de QI WAIS face à un chatbot ChatGPT affichant un score de 155

★

L’essentiel en 5 points

1 ChatGPT obtient des scores de QI très élevés (155 chez Roivainen, 150 chez Luc Ferry) sur les sous-tests verbaux du WAIS, ce qui alimente la thèse d’une IA mille fois plus intelligente que nous.
2 Ces scores sont méthodologiquement invalides parce que les items du Wechsler et des autres tests de QI sont publiés depuis des décennies et présents dans les corpus d’entraînement des LLM, qui les ont mémorisés.
3 Aboutir à un score élevé sur un test dont le candidat a vu les questions et les réponses ne mesure plus l’intelligence, cela mesure la mémoire associative, ce qu’un protocole psychométrique standard interdit explicitement.
4 L’intelligence est un construit opérationnalisé depuis un siècle (Spearman, Cattell, Carroll, modèle CHC, rapport Neisser 1996 de l’APA), dont aucune des dimensions mesurables n’a d’équivalent réel chez un LLM.
5 Confondre la performance fonctionnelle d’un LLM sur des tâches symboliques avec une intelligence au sens psychométrique produit des décisions coûteuses en RH, en orientation, en médecine, en politique éducative.

Quand un philosophe à deux agrégations annonce devant 200 personnes à Auxerre, puis devant la Mission d’information parlementaire sur l’IA, que l’intelligence artificielle est mille fois plus intelligente et cultivée que lui, personne ne lui demande ce qu’il entend par intelligente. Quand un psychologue finlandais publie dans Scientific American que ChatGPT obtient un QI verbal de 155, surpassant 99,9% de la population, l’information fait le tour des médias en quelques jours. Sciencepost, Futura-Sciences, Tom’s Guide, NeozOne reprennent le score sans le questionner.

Le problème est que le mot intelligence n’est pas un mot libre. Il a un sens scientifique, un siècle de travaux psychométriques, des outils de mesure aussi rigoureux que ceux de la médecine. Et quand on l’applique à un LLM, on l’applique sans avoir vérifié qu’il s’applique. Cet article explique pourquoi les scores de QI obtenus par ChatGPT et GPT-4 ne mesurent pas une intelligence, et pourquoi cette confusion est plus coûteuse qu’elle n’en a l’air.

Le score de QI 155 de ChatGPT, une histoire qui tourne en boucle

L’étude finlandaise de Roivainen et son écho médiatique

En 2023, le psychologue clinicien finlandais Eka Roivainen publie dans Scientific American une tribune dans laquelle il raconte avoir administré la troisième édition du Wechsler Adult Intelligence Scale (WAIS-III) à ChatGPT. Cinq des six sous-tests verbaux ont été passés : vocabulaire, similitudes, information, arithmétique, compréhension. Le sixième, la mémoire des chiffres, n’avait aucun sens pour un système qui n’a pas de fenêtre temporelle.

Le résultat publié : un score de QI verbal de 155, ce qui place théoriquement ChatGPT au-dessus de 99,9% des 2 450 personnes qui composent l’échantillon de normalisation américain du WAIS-III. L’information est reprise en boucle dans la presse francophone. Tom’s Guide titre « L’intelligence artificielle explose les compteurs ». Futura-Sciences évoque un « candidat idéal ». Sciencepost conclut que ChatGPT « serait très, très intelligent » s’il était humain.

155

Score de QI verbal de ChatGPT selon Roivainen (Scientific American, 2023). Ce score correspond théoriquement au 1‰ supérieur de la population. Sa validité psychométrique est nulle.

Médias relayant en boucle le score de QI 155 de ChatGPT

Luc Ferry et son score de 150 sur GPT-4

Dans son livre « IA, grand remplacement ou complémentarité ? » paru aux Éditions de l’Observatoire en janvier 2025, le philosophe Luc Ferry rapporte une expérience similaire. Il raconte avoir fait passer à GPT-4 des items issus du Wechsler et de l’échelle métrique de Zazzo (une adaptation française du Binet-Simon), dont il cite textuellement deux. La première : « Le boulanger perd sur chaque petit pain, mais il se rattrape sur la quantité, qu’est-ce qui ne va pas dans cette phrase ? ». La seconde : « Le vieux monsieur aimait faire le tour de son jardin mais arrivé exactement à mi-chemin, il était tellement fatigué qu’il devait faire demi-tour, où est la bêtise ? ».

GPT-4 répond aux deux questions de manière techniquement correcte, en quelques secondes, et Ferry en conclut que la machine atteint un score de 150, soit le 1% supérieur de la population. Il en tire que le mot intelligence s’applique légitimement aux LLM, même s’il distingue par ailleurs dans son livre trois types d’IA (faible et étroite, AGI, IA forte) et reconnaît que la conscience reste une affaire humaine.

Ces deux expériences, l’une publiée en presse scientifique grand public, l’autre dans un essai philosophique à fort retentissement, contribuent à fixer dans l’imaginaire collectif l’idée qu’un LLM est non seulement intelligent, mais plus intelligent que la quasi-totalité des humains. C’est cette conclusion qu’il faut démonter, parce qu’elle repose sur une erreur méthodologique grave que ni Roivainen ni Ferry n’ont identifiée.

Pourquoi ces tests ne mesurent rien chez un LLM

Le principe de la contamination des données

Le concept de contamination des données est central dans l’évaluation des modèles de langage. Il désigne la situation dans laquelle un système est testé sur des données qu’il a déjà vues pendant son entraînement. Quand cela se produit, la performance mesurée ne reflète plus la capacité du système à généraliser ou à raisonner, elle reflète sa capacité à restituer ce qu’il a mémorisé.

Or les items des tests de QI standardisés présentent une caractéristique qui rend la contamination quasi certaine : ils sont publiés depuis des décennies. Le Wechsler existe depuis 1939, ses différentes éditions (WAIS-R, WAIS-III, WAIS-IV, WAIS-V) sont documentées dans la littérature scientifique. Les items, ou des items très proches, circulent dans les manuels de psychologie, les sites de préparation aux concours de psychologue, les forums étudiants, les thèses universitaires, les ouvrages de vulgarisation, les bases de données académiques en accès libre. Les questions de Ferry sur le boulanger ou le vieux monsieur figurent dans des manuels disponibles en ligne depuis longtemps.

ChatGPT a été entraîné sur l’essentiel de ce qui est public sur internet jusqu’à son cutoff de données. Il a donc, statistiquement, vu ces items et leurs réponses des dizaines voire des centaines de fois pendant son entraînement. Sa performance sur ces questions ne mesure pas son intelligence, elle mesure le degré de mémorisation associative entre l’énoncé et la réponse attendue.

Illustration de la contamination des données entre les corpus d'entraînement et les tests de QI

Ce qu’un protocole psychométrique exige et que les LLM ne respectent pas

Un test de QI sérieux repose sur plusieurs conditions strictes que la psychométrie a mises au point au fil d’un siècle de pratique :

La procédure standardisée garantit que tous les candidats passent les mêmes items dans les mêmes conditions, avec les mêmes consignes et les mêmes temps.

Le contrôle de l’exposition préalable garantit que le candidat n’a pas vu les items avant la passation. Les items des Wechsler sont protégés par copyright, leur diffusion est restreinte aux professionnels habilités, et les psychologues sont formés à détecter les candidats qui auraient été préparés à ces items.

L’équivalence des conditions de passation garantit que les performances sont comparables d’un candidat à l’autre.

La standardisation de l’échantillon de référence permet de situer un score individuel par rapport à une population de référence rigoureusement définie.

Aucune de ces conditions n’est respectée quand on fait passer un test à un LLM. La procédure n’est pas standardisée (Ferry choisit deux items, Roivainen cinq sous-tests). L’exposition préalable n’est pas seulement non contrôlée, elle est garantie par la nature même de l’entraînement des modèles. Les conditions de passation n’ont pas d’équivalent (pas de temps imparti, pas de stress, pas de fatigue, pas d’observation du candidat par un examinateur). L’échantillon de référence concerne des humains, pas des systèmes statistiques.

💡 POINT CLÉ

Aboutir à un score de 155 ou de 150 dans ces conditions ne constitue pas une mesure psychométrique. C’est une démonstration de la mémoire associative du système sur des items qu’il a vus, présentée avec le vocabulaire d’une science qu’elle ne respecte pas.

Mémoire associative ne signifie pas intelligence

L’objection peut sembler technique, elle est en réalité fondamentale. La psychométrie a précisément été inventée pour distinguer la performance brute (savoir donner la bonne réponse) du construit qu’elle cherche à mesurer (la capacité cognitive sous-jacente). Un élève qui aurait eu accès au corrigé d’un examen une semaine à l’avance et qui obtiendrait 19/20 n’aurait pas mesuré ses compétences, il aurait mesuré sa mémoire. C’est exactement la situation des LLM face aux tests de QI standardisés.

Un test de QI mesure l’intelligence à condition que les items soient nouveaux pour le candidat. Sinon, il mesure autre chose. C’est ce que les psychométriciens appellent un effet d’apprentissage, et c’est précisément pour cela qu’il existe des versions alternatives des tests pour les passations répétées chez les mêmes individus. Avec un LLM, l’effet d’apprentissage n’est pas un biais marginal, c’est la totalité de ce qui est mesuré.

Qu’est-ce que l’intelligence en psychométrie

Un siècle de mesure, de Spearman à Carroll

L’intelligence est probablement le construit psychologique le mieux validé qui existe en psychologie scientifique. Charles Spearman publie en 1904 les premiers travaux sur la mesure de l’intelligence et identifie le facteur général g, qui rend compte de la corrélation positive entre toutes les capacités cognitives mesurées. Raymond Cattell et John Horn distinguent ensuite l’intelligence fluide (Gf) et l’intelligence cristallisée (Gc). John Carroll synthétise en 1993 plus de 460 études d’analyse factorielle dans son ouvrage « Human Cognitive Abilities », qui structure encore aujourd’hui les tests modernes.

En 1996, l’American Psychological Association mandate une équipe d’experts présidée par Ulric Neisser pour publier l’état de la science. Le rapport « Intelligence: Knowns and Unknowns », paru dans American Psychologist, définit l’intelligence comme la capacité d’un individu à comprendre des idées complexes, à s’adapter à son environnement, à apprendre par l’expérience, à raisonner et à surmonter des obstacles par la pensée. C’est la référence consensuelle.

📚 Source : Neisser, U. et al. (1996). Intelligence: Knowns and Unknowns. American Psychologist, 51(2), 77-101.

Le modèle CHC et ses dimensions mesurables

Le modèle Cattell-Horn-Carroll (CHC) opérationnalise cette définition en facteurs hiérarchiques mesurables, qui structurent les tests modernes comme le WISC-V pour les enfants, le WAIS-IV pour les adultes, ou le Woodcock-Johnson WJ-IV : g pour le facteur général, Gf pour le raisonnement fluide, Gc pour les connaissances cristallisées, Gv pour le traitement visuel, Gsm pour la mémoire à court terme, Glr pour la mémoire à long terme, Gs pour la vitesse de traitement, Ga pour le traitement auditif, Gq pour les connaissances quantitatives, Grw pour la lecture et l’écriture.

Ces facteurs ne sont pas des spéculations théoriques. Ils sont mesurés par des tests standardisés avec des coefficients de fidélité test-retest autour de 0,90, ce qui est très élevé pour une mesure psychologique. Leur validité prédictive est documentée sur la performance scolaire, la performance professionnelle (méta-analyses de Schmidt et Hunter), la santé et l’espérance de vie (travaux d’Ian Deary sur la cohorte écossaise).

Schéma hiérarchique du modèle CHC de l'intelligence avec les facteurs g, Gf, Gc, Gv et autres

Pourquoi aucune dimension n’a d’équivalent chez un LLM

Aucun de ces facteurs n’a d’équivalent opérationnel chez un LLM. Pas un.

Le raisonnement fluide (Gf) implique de résoudre des problèmes nouveaux par induction et déduction. Les LLM échouent sur les benchmarks de généralisation compositionnelle hors distribution (Lake et Baroni 2018, Hupkes et al. 2020).

La mémoire de travail (Gsm) est la capacité à manipuler activement plusieurs éléments simultanément en mémoire. Les LLM n’ont pas de mémoire au sens psychologique, ils ont une fenêtre de contexte qui est lue à chaque inférence.

La vitesse de traitement (Gs) est la rapidité d’exécution de tâches cognitives simples chez un système doté d’attention, de fatigue, d’inhibition. Le débit d’inférence d’un GPU n’a aucun rapport avec ce construit.

Les connaissances cristallisées (Gc) sont l’accumulation de connaissances acquises par l’expérience dans une culture donnée. Un LLM stocke des distributions statistiques sur des tokens, pas des connaissances au sens d’un savoir intégré et mobilisable de manière flexible.

Quand on dit qu’un LLM a un QI, on utilise le vocabulaire d’une discipline scientifique sans en respecter aucune des conditions opérationnelles. C’est ce qu’on appelle un glissement lexical, et c’est précisément ce que la psychométrie sérieuse cherche à éviter.

Ce que fait vraiment ChatGPT

Le principe statistique sous le capot

Un LLM calcule la probabilité conditionnelle du prochain token étant donné les tokens précédents, à partir de poids appris par descente de gradient sur un corpus textuel massif. Mathématiquement, à chaque étape : produit matriciel sur des représentations vectorielles, fonction d’activation, softmax, échantillonnage du token suivant. Ce qui en sort est une suite de mots qui correspond à la continuation la plus probable du prompt selon la distribution apprise.

Pour le dire autrement : imaginez quelqu’un qui aurait passé sa vie enfermé dans une bibliothèque sans fenêtre, sans jamais voir un objet, toucher quoi que ce soit, parler à personne, mais qui aurait lu des milliards de phrases écrites par d’autres. Cette personne ne comprend pas vos questions au sens où vous les comprenez. Elle calcule quelle suite de mots a le plus de chances de venir après les vôtres, en piochant dans son stock de phrases déjà vues. C’est exactement ce que fait un LLM. Pas un déshonneur, mais autre chose qu’une intelligence.

Les limites documentées par les sciences cognitives

Trois courants de recherche convergent pour montrer que cette opération statistique n’est pas réductible à de l’intelligence.

La généralisation compositionnelle. Brenden Lake et Marco Baroni ont publié en 2018 un article dans les actes d’ICML montrant que les modèles séquence-à-séquence échouent dès qu’on leur demande de combiner des règles d’une façon qu’ils n’ont pas explicitement vue. McCoy et al. ont publié en 2023 « Embers of Autoregression », qui documente la sensibilité extrême des LLM à la fréquence des situations dans leurs données d’entraînement.

La distinction forme/sens. Emily Bender et Alexander Koller ont publié en 2020 dans les actes d’ACL « Climbing towards NLU », qui pose qu’un système entraîné uniquement sur la forme linguistique ne peut pas, en principe, apprendre le sens. Kyle Mahowald et son équipe ont publié en 2024 dans Trends in Cognitive Sciences un article cosigné avec Joshua Tenenbaum, Nancy Kanwisher et Evelina Fedorenko (l’élite des sciences cognitives au MIT) qui distingue compétence linguistique formelle (que les LLM maîtrisent bien) et compétence fonctionnelle (raisonnement, world model, modélisation de situations, cognition sociale), où les performances s’effondrent.

La causalité. Judea Pearl, lauréat du prix Turing, a posé une hiérarchie causale à trois niveaux : observer des corrélations, comprendre ce qui se passe quand on intervient, imaginer ce qui se serait passé sinon. Les LLM occupent le rez-de-chaussée.

Un enfant de trois ans fait quelque chose qu’aucun LLM ne fait

Posez une tasse au bord d’une table, poussez-la doucement. Un enfant de trois ans qui regarde anticipe : la tasse va tomber et se casser. Il le sait, pas parce qu’il a lu des milliards de phrases sur des tasses, mais parce qu’il a manipulé des objets, en a fait tomber, a vu ce qui se passe. Il a un modèle physique du monde dans la tête, construit par interaction sensorimotrice.

Elizabeth Spelke a documenté à Harvard que les bébés disposent dès quelques mois de connaissances de base sur les objets, l’espace, le nombre, les autres êtres vivants (les « core knowledge systems »). Susan Carey a montré comment les enfants construisent ensuite des concepts plus abstraits par bootstrapping conceptuel. Joshua Tenenbaum au MIT a modélisé mathématiquement la façon dont un enfant forme des hypothèses, les teste, les révise.

Comparaison entre un enfant de 3 ans anticipant la chute d'une tasse et un LLM qui produit la même phrase par calcul statistique

ChatGPT, à la même scène, produira la phrase « la tasse va se casser » parce que cette phrase est statistiquement dominante après une description similaire. Si dans son corpus la tasse s’envolait au plafond, il l’écrirait avec autant d’aplomb. Il n’a ni table ni gravité, il a des tokens et des distributions.

« L’IA générative a moins d’intelligence qu’un enfant de quatre ans, parce qu’elle est incapable d’avoir de la mémoire, incapable de planification et incapable de comprendre le monde. »
— Yann Le Cun, prix Turing 2018, directeur scientifique de Meta

Le glissement lexical et pourquoi il coûte cher

Le même mécanisme que MBTI, HP arborescent, synergologie

Le glissement lexical qui consiste à appliquer un mot scientifique à un objet qu’il ne décrit pas est un mécanisme connu dans le champ de la psychologie appliquée. Le « cerveau arborescent » qu’on prête aux enfants surdoués n’a aucune validation en neurosciences. Le MBTI rapporte des fortunes à ses ayants droit et n’a pas de fiabilité psychométrique sérieuse depuis qu’on prend la peine de le tester. La synergologie prétend lire la pensée sur le visage et appartient au registre du paranormal habillé en science. Le DISC repose sur les théories d’un auteur dont l’autre titre de gloire fut de créer Wonder Woman.

Le mécanisme est toujours le même : un mot scientifique, un test qui en a l’air, une apparence de mesure, et au bout du compte des décisions prises à partir d’illusions soigneusement entretenues. « L’IA est intelligente » fonctionne exactement pareil. La nouveauté n’est pas le mécanisme, c’est l’échelle. Les entreprises qui vendent cette confusion pèsent des milliards et les relais médiatiques n’ont aucun intérêt à les contrarier.

Cartes comparant MBTI, HP arborescent, synergologie et IA intelligente comme exemples du même glissement lexical

Les conséquences en RH, orientation, éducation, médecine

On déploie aujourd’hui ces systèmes dans des contextes à fort enjeu en présupposant qu’ils sont intelligents. Tri de CV en ressources humaines. Préconisation d’orientation pour des adolescents en bilan d’orientation. Aide à la décision médicale. Génération automatisée de bilans psychologiques. Politique publique sur l’éducation.

Dans chacun de ces cas, le mot intelligent fait silencieusement son travail. Il rassure le décideur. Il suggère un système qui comprend ce qu’il fait. Mais le système ne comprend pas, il calcule la phrase la plus probable étant donné ce qu’on lui a demandé. Et quand il se trompe sur un adolescent, sur un patient, sur un candidat, l’erreur n’est pas un accident rare. C’est l’expression normale d’un système qui n’a jamais été conçu pour faire ce qu’on lui demande, mais qui en donne l’illusion parce qu’on a accepté de l’appeler intelligent.

Reconnaître ce que les LLM font réellement

Les gains de productivité documentés

Refuser le mot intelligence n’est pas refuser l’utilité. Les LLM transforment réellement certaines pratiques professionnelles, et le nier serait aussi malhonnête que de les surévaluer.

Ils accélèrent la synthèse documentaire sur des corpus bien cadrés. Ils accélèrent la traduction de surface pour des textes standards. Ils accélèrent la programmation répétitive, et Peng et al. ont mesuré en 2023, dans une étude contrôlée sur GitHub Copilot, des gains de productivité réels chez les développeurs. Ils accélèrent la rédaction administrative et la production de premiers jets. Ils accélèrent la recherche d’information textuelle dans des bases volumineuses, via les architectures RAG (retrieval-augmented generation).

Un outil n’est pas un substitut

Mais accélérer une tâche n’est pas la même chose que la comprendre. Une calculatrice fait l’addition plus vite que vous, personne ne la qualifie de mathématicienne. Un médecin qui utilise un LLM pour rédiger un compte-rendu reste celui qui pose le diagnostic, parce qu’il a un patient devant lui qu’il a touché, écouté, examiné, dont il connaît l’histoire. Un psychologue qui utilise un outil numérique d’aide à la rédaction reste celui qui valide l’analyse clinique. Un conseiller en orientation qui utilise un test psychométrique numérique reste celui qui interprète les résultats à la lumière du dossier du jeune et de son projet.

La distinction est majeure, et elle structure la manière dont Eudonia et Espaces-Orientation conçoivent leurs outils. Les tests T-Persona, HEXA 3D, IRMR4 et WorkSens Pro sont des instruments psychométriques au sens fort, avec des construits opérationnalisés, des coefficients de fidélité publiés et des validations sur population. Ce qui les distingue d’un LLM auquel on demanderait de « faire un bilan » : ils mesurent quelque chose, ils n’inventent pas. Et leur lecture revient toujours au professionnel.

Psychologue utilisant un outil IA comme assistant à la rédaction tout en gardant le contrôle de l'analyse clinique

Conclusion

L’IA n’est pas intelligente. Pas au sens où le mot a un sens, c’est-à-dire celui défini par la seule discipline qui a opérationnalisé ce construit depuis un siècle. Les scores de 150 ou 155 obtenus par GPT-4 ou ChatGPT sur des items du WAIS ne mesurent pas l’intelligence du système, ils mesurent sa mémoire associative sur des items qu’il a vus pendant son entraînement. C’est une faute méthodologique, pas un résultat scientifique.

Les LLM sont utiles, parfois précieux, et tout à fait dépourvus d’intelligence au sens psychométrique. Reconnaître cela n’enlève rien à leur utilité, mais cela change ce qu’on attend d’eux et ce qu’on accepte de leur confier. Tant qu’on appellera intelligence ce qui est calcul probabiliste, on prendra des décisions sur des projections, pas sur des mesures. Et c’est précisément ce que la psychométrie sérieuse cherche à empêcher depuis cent ans.

Questions fréquentes

Le score de 155 obtenu par Roivainen sur le WAIS-III appliqué à ChatGPT existe bien et la procédure est documentée dans Scientific American. Mais ce score n’a aucune validité psychométrique parce que les items du WAIS sont publiés depuis des décennies et présents dans les corpus d’entraînement du modèle. ChatGPT n’a pas raisonné pour répondre, il a restitué des associations apprises. Faire passer un test dont le candidat a vu les questions invalide la mesure, c’est le principe même d’un protocole standardisé.

Pour exactement la même raison. Ferry utilise des items du Wechsler et de l’échelle métrique de Zazzo, dont les énoncés (le boulanger, le vieux monsieur du jardin) circulent depuis longtemps dans les manuels et les sites de formation. GPT-4 a été entraîné sur ces données. Sa performance ne reflète pas une intelligence, elle reflète la statistique d’apparition des bonnes réponses dans son corpus.

C’est le fait qu’un système soit testé sur des données qu’il a déjà vues pendant son entraînement. C’est un biais méthodologique majeur en évaluation de modèles. Quand il survient, la performance mesurée ne reflète plus la capacité du système à généraliser, mais sa capacité à mémoriser. Pour les LLM entraînés sur la quasi-totalité du web, la contamination est quasi certaine sur tout contenu public publié avant le cutoff du modèle.

Pas avec les tests psychométriques humains, qui sont conçus pour mesurer un construit (l’intelligence humaine) dont la définition opérationnelle ne s’applique pas aux LLM. Des chercheurs comme François Chollet (créateur de Keras) proposent des benchmarks alternatifs (ARC, Abstraction and Reasoning Corpus) conçus pour mesurer la capacité de généralisation à partir de très peu d’exemples. Les LLM y obtiennent encore des scores nettement inférieurs au niveau humain.

Parce que la production de langage cohérent est statistiquement bien maîtrisée par les modèles, et que le langage cohérent est notre principal indicateur intuitif d’intelligence chez autrui. Mahowald et al. 2024 dans Trends in Cognitive Sciences distinguent la compétence linguistique formelle (que les LLM maîtrisent) de la compétence fonctionnelle (raisonner sur le monde, modéliser des situations), où les performances s’effondrent. Nous projetons de l’intelligence sur ce qui produit du langage fluide.

Non. Les LLM ont des usages documentés où ils apportent des gains de productivité réels : synthèse documentaire, traduction de surface, rédaction de premier jet, recherche d’information textuelle, code répétitif. Ce qu’il faut éviter c’est de les utiliser pour des tâches qui demandent une compréhension du monde, une inférence causale, une analyse clinique. La règle est simple : un LLM accélère un humain compétent, il ne remplace pas son jugement.

Yann Le Cun, prix Turing 2018 et directeur scientifique de Meta, affirme régulièrement que les LLM ont moins d’intelligence qu’un chat, parce qu’ils sont incapables de mémoire persistante, de planification et de compréhension du monde. Judea Pearl, prix Turing également, considère que les LLM restent au premier niveau de sa hiérarchie causale (corrélations) et ne maîtrisent ni l’intervention ni les contrefactuels. Gary Marcus, Melanie Mitchell, François Chollet, Brenden Lake défendent des positions similaires.

Des outils psychométriques validés pour vos évaluations

Eudonia conçoit des outils pour les professionnels de la psychologie et de l’orientation, qui mesurent des construits opérationnalisés, avec des coefficients de fidélité publiés. À la différence d’un LLM, ils mesurent quelque chose et leur lecture revient toujours au professionnel.

Découvrir les outils Eudonia → Recrutement RH fiable