Cette analyse de la publication scientifique « Evaluating large language models for ADHD education: A comparative study of ChatGPT 5, DeepSeek V3, and Grok 4 » a été réalisée par l’équipe scientifique de Docmeup.
Peut-on confier à l’IA l’explication du TDAH aux non-spécialistes ?
Les éducateurs, enseignants et parents qui accompagnent un enfant avec un trouble déficitaire de l’attention avec ou sans hyperactivité (TDAH) manquent souvent de ressources claires et fiables. Le contenu scientifique existe, mais il est rarement vulgarisé, en particulier pour des champs comme l’éducation physique adaptée. Les grands modèles de langage pourraient-ils combler ce vide ?
C’est la question posée par cette étude, qui met trois IA de pointe à l’épreuve : ChatGPT 5, DeepSeek V3 et Grok 4. L’enjeu n’est pas de produire un diagnostic, mais de générer des textes pédagogiques à la fois exacts, lisibles et stables. Un test grandeur nature de ce que l’IA sait, ou ne sait pas encore, faire en matière de vulgarisation médicale.
Trois modèles, trois questions, dix essais chacun
L’étude est exploratoire et menée in silico. Pour chaque modèle, les chercheurs ont lancé dix itérations sur trois questions types : définir le TDAH, en décrire les symptômes, et expliquer ses interactions avec l’éducation physique. Chaque texte a été évalué sous trois angles : la précision du contenu (double codage indépendant selon les critères du DSM-5), la lisibilité (indices objectifs comme FKRE, FKGL et SMOG) et la stabilité des réponses d’un essai à l’autre.
Premier constat rassurant : les trois modèles produisent des contenus conformes au DSM-5. Sur le fond, l’information est juste. Mais la lisibilité raconte une autre histoire. Les scores de complexité (FKGL et SMOG) dépassent systématiquement le niveau 12, soit un registre bien trop élevé pour la plupart des éducateurs et des parents. L’IA dit vrai, mais elle le dit de façon trop savante pour son public cible.
LIRE AUSSI : IA et TDAH : où en est-on vraiment des promesses ?
Chaque modèle a sa personnalité
Au-delà du constat commun, les trois IA se distinguent nettement. ChatGPT 5 privilégie la concision et une orientation positive, mettant en avant les points forts. DeepSeek V3 fournit les réponses les plus étoffées et nuancées. Grok 4, lui, se signale par sa cohérence et sa stabilité d’une session à l’autre, un atout pour produire des contenus standardisés.
Ces différences ne sont pas anecdotiques : elles suggèrent qu’on ne choisit pas un modèle dans l’absolu, mais selon le besoin. Concision, richesse ou reproductibilité ne se valent pas pour toutes les tâches. Pour qui conçoit un outil pédagogique, c’est une information directement exploitable.
LIRE AUSSI : IA en santé : comment évaluer ce que valent vraiment les outils
Une photographie utile, mais à compléter
Plusieurs limites cadrent la portée de ces résultats. L’étude est unilingue (anglais australien), repose sur des prompts fixes, un petit nombre d’itérations, et surtout n’inclut aucune évaluation par de vrais utilisateurs ni de comparaison statistique formelle. Autrement dit, on mesure ce que produisent les modèles, pas ce qu’en font réellement les éducateurs sur le terrain.
Nous qualifions donc la fiabilité de cette étude de moyenne. Elle offre une cartographie honnête et instructive des forces et limites de ces IA pour la vulgarisation du TDAH, mais elle appelle des validations humaines et des adaptations linguistiques avant tout déploiement à large échelle.
Ce que vous pouvez en retenir
Le message principal est nuancé et précieux. Les LLM sont déjà capables de produire un contenu scientifiquement juste sur le TDAH, mais leur sortie brute n’est pas prête à l’emploi pour un public non spécialiste : elle demande une simplification active, par le prompt et par une relecture humaine. L’IA est un point de départ efficace, pas un produit fini.
Pour les professionnels qui conçoivent des supports de formation, l’enjeu est donc moins de choisir le «meilleur» modèle que d’apprendre à le piloter et à le valider. C’est exactement la philosophie que nous défendons : l’IA comme accélérateur, sous contrôle humain et avec des sources vérifiables.
Si vous êtes professionnel de santé, enseignant, chercheur ou concepteur d’outils pédagogiques et que l’usage rigoureux de l’IA vous intéresse, Docmeup vous aide à exploiter la littérature scientifique sans jamais sacrifier la fiabilité des sources.
Synthétiser un document avec Docmeup
Référence : Xingmin Han, Ruirui Xing, Mi Zhou. Evaluating large language models for ADHD education: A comparative study of ChatGPT 5, DeepSeek V3, and Grok 4. PLoS one. juin 2026. DOI: 10.1371/journal.pone.0335335. PMID: 42224207. Mots-clés : Large Language Models, ADHD, Attention Deficit Disorder with Hyperactivity, Comprehension.




