Pourquoi parler aujourd’hui de Digital Assessment Design (DAD)?

Nous voilà donc à la croisée des chemins et de nouveaux choix se présentent. L’intelligence artificielle s’étend à tous les domaines. Faut-il rester camper sur des positions historiques ou explorer de nouveaux sentiers ? C’est le sujet que traitera rapidement cet article.
La lente évolution des outils d’évaluation digitale
On recherchait jusqu’alors des outils robustes, bâtis sur des règles pérennes qui garantissaient sur la longue durée, la validité des tests et des items, au service de la fiabilité des résultats.
Le choix d’adopter les outils numériques pour construire des évaluations, et notamment les évaluations massives ou les examens a d’abord été guidé par l’impératif économique. Le désengagement rendu possible des personnels (enseignants, assesseurs, assistants, services d’impression et d’acheminent des copies…), l’évitement des taches fastidieuses et répétitives permettaient une économie considérable.
Mais les décideurs étaient parfaitement conscients que pour optimiser ces gains, il fallait encore que l’investissement digital soit rentable, c’est-à-dire qu’il évite l’écueil d’une rapide obsolescence. Or, tout le monde le sait, l’informatique et les technologies du WEB évoluent à un rythme soutenu et cette course poursuite peut entrainer des coûts conséquents. Il fallait donc rassurer, c’est ainsi que sont nés les Standards (QTI, PCI, LTI, CALIPER, CASE, CLR…) avec leur corolaire : les certifications. Ces standards s’imposèrent dans la formulation des appels d’offre : ils parlaient la langue des décideurs économiques en leur garantissant une certaine pérennité de leur investissement.
Cette volonté de ralentir l’adoption de nouvelles solutions a trouvé aussi un écho auprès des prestataires de services et autres concepteurs de plateformes d’évaluation. En effet, une plateforme d’évaluation ou bien un LMS (Learning Management System) représente des heures de codage et donc un investissement financier considérable. Une remise en cause fréquente des choix techniques des équipes de développement les aurait conduits à la faillite. C’est ainsi que se sont maintenues des technologies anciennes comme le PHP et les bases SQL, et que les standards n’ont pas réellement connu d’évolution (le QTI 2.2 né en 2017 n’a pour le moment toujours pas cédé sa place au QTI 3.0).
Les organisations concernées par les démarches d’évaluation digitale sont nombreuses. Cette volonté de ralentir les évolutions techniques s’est heurtée au fil du temps à l’arrivée de nouveaux ingénieurs qui apportaient de nouvelles solutions plus efficaces et plus évolutives (serveur Node, base NOSQL, frameworks : React, Vue, Angular, Svelte). Tant et si bien qu’on peut aujourd’hui considérer que l’adoption des standards reste marginale. Elle contribue fortement à l’inertie de nombreuses institutions qui se sont encombrées de leur pesanteur technique. Par exemple : le QTI est structuré en XML et impose des articulations complexes entre ses propres règles / modes de calcul et son contexte d’exécution. Les ingénieurs compétents sur ces standards sont rares et plutôt en voie d’extinction.
Les institutions croyant échapper aux risques de l’obsolescence se sont jetées dans les bras d’opérateurs historiques experts en technologies délaissées. On peut considérer à postériori que ce choix était fondé et rationnel, mais on découvre aujourd’hui qu’il n’a fait que différer la question de l’adaptation aux évolutions techniques.
Le point de rupture
Le monde de l’évaluation digitale connaît une rupture historique avec l’intelligence artificielle. Tous les compartiments seront touchés à terme. Mais l’effet majeur viendra de la vague de fond que représente l’effondrement du coût de développement. Cet effondrement est la conséquence d’une productivité accrue des développeurs qui sauront intégrer les outils IA dans leur pratique. Attention, le codeur sera toujours nécessaire, mais son travail va radicalement changer : il va recevoir (cela a déjà commencé) une assistance à tous les niveaux : choix des technologies, structure, transposition de solutions, génération de modules, tests unitaires, rédaction du code, vérification, réécriture d’optimisation, conversion etc.
Cette révolution des coûts va entraîner une production considérable d’outils open-source qui seront autant de points de départ pour différents types de projets. L’appropriation de ces outils sera facilitée par l’IA également qui est d’ores et déjà capable de générer une documentation technique en quelques minutes. On peut ainsi prédire que les acteurs du E-Assessment en place et qui ont une charge de personnel importante vont souffrir d’une nouvelle concurrence, celles de structures plus petites, plus plastiques, ayant totalement intégré les outils de l’IA pour leur développement. L’IA va détruire définitivement les entreprises qui ont misé sur le « secret de fabrication » pour conserver leur part de marché.
L’abaissement des coûts et la maîtrise technologique viendra questionner les institutions sur une possible intégration de ces développements d’adaptation dans leur organisation ou préféreront peut-être faire l’appel à un prestataire spécialisé extérieur pour les ajustements plus fins.
Le règne du Test
Cela étant dit, les conséquences de cette révolution ne s’arrêtent pas là. La structure même de la démarche « évaluation numérique » sera remise en cause. Aujourd’hui, le Test règne en maître : l’élève s’identifie sur une plateforme et une série d’exercice (de multiples formes) lui est proposé selon différentes logiques d’enchaînement (linéaire, adaptatif) et selon différentes modalités (sommative, formative, instantanée). Puis un traitement automatique des résultats synthétise la performance. Ce traitement peut être aussi renforcé par une correction humaine opérée à travers une plateforme de correction dédiée. Les résultats sont adressés aux acteurs : les institutions scolaires produisent leur statistique pour suivre l’évolution de l’appareil éducatif, les élèves sont confrontés à leur performance qui sont souvent résumées à une note sur 20 (pour la France), ou à un pourcentage. Leur souci sera de savoir s’ils sont au-dessus ou en-dessous du seuil validant la compétence.
L’IA générative contrôlée
Dans sa forme classique, la production de tests peut être enrichie, et simplifiée par l’IA. Il est possible de générer des items assez complexes en utilisant les LLM. Il suffit pour cela de construire une représentation JSON de l’item à générer (par injection du contenu) et de demander à Claude.AI ou ChatGPT de faire le reste. Attention la génération d’items sur la base de LLM non spécialisé reste un exercice complexe voire périlleux. Cet exercice à moindre coût dans un usage réservé à la création d’item par des LLM majeurs (Claude.ai, ChapGPT-4o, Gemini, Llama…) peut devenir cher si on désire utiliser massivement les API commerciales disponibles. Pour des raisons de confidentialité et de contrôle, on peut choisir de générer ces items à partir d’une solution locale basée par exemple sur Ollama et le modèle Llama 3.3 (ou d’autres cf : https://ollama.com/search ). Dans ce cas, la solution d’intégration API sera sans le moindre coût supplémentaire à l’usage. Toutefois on gardera à l’esprit que le serveur local dédié à l’IA devra avoir une puissante capacité de calcul (GPU / CPU).
L’IA comme aide à la correction
Une autre dimension investie par l’IA sera celle de la correction jusque-là nécessitant l’intervention humaine. L’IA est déjà en mesure de traiter une réponse ouverte à l’écrit comme à l’oral, ou une réponse visuelle (dessin, schéma, représentation géométrique…). Elle est également capable de générer un retour souvent performant sur la qualité d’une réponse. Elle peut d’ores et déjà commenter la production de l’élève et définir des axes de progrès avec des recommandations. L’IA sera en mesure de questionner l’élève sur sa performance ou de dialoguer avec le professeur sur les manques à combler ou les points forts à entraîner.
Les professeurs s’empareront des outils d’IA
Arrêtons-nous une seconde sur la place des professeurs dans l’évaluation digitale. On laissera de côté les professeurs experts œuvrant pour les institutions afin de constituer les items d’examen ou de tests nationaux (sans oublier les dispositifs de correction). Nous pensons plutôt aux professeurs dans leur pratique quotidienne devant leur(s) classe(s) et qui d’ores et déjà ont pu prendre conscience de l’aide que pouvait apporter les LLM. La révolution de l’intelligence artificielle devrait leur rendre accessible des outils puissants d’évaluation et faire de l’évaluation numérique un outil central dans leur pratique.
Vers une nouvelle forme d’évaluation
Le bon vieux Test qui apparaît aujourd’hui comme immuable ne disparaîtra pas, mais il semble qu’il doive bientôt faire de la place à « l’évaluateur numérique », son nouveau voisin. C’est à travers un dialogue écrit ou oral que l’évaluation sera menée. L’agent pourra projeter une activité à accomplir, poser une question et attendre une réponse ouverte par écrit ou à l’oral, il pourra donner un coup de main mais en tiendra compte dans son jugement… Il pourra utiliser toute la palette des items numériques pour estimer le niveau de maîtrise de l’élève. Le score final ne sera plus qu’un élément interne de calcul, au détriment d’une note de synthèse qui résumera les forces et les faiblesses de l’élève, précisant si le seuil de compétence attendu est atteint. Fort conscient qu’une IA peut avoir des faiblesses : on connaît le phénomène des hallucinations, on devra s’assurer de l’équité du jugement. Pour cela, de nombreuses précautions devront être mises en place : le contrôle du degré de liberté dans le jugement (température du LLM), la double correction (par une IA superviseur), l’identification de divergences, la spécialisation du modèle dans la passation comme dans le jugement de la performance finale. On ne fera pas ici la liste des dérives et des contremesures, mais on mentionnera qu’elles existent et qu’une grande prudence sera nécessaire pour la mise en œuvre d’un tel agent.
Modernisation et innovation
J’en reviens à la question première : Pourquoi parler aujourd’hui de Digital Assessment Design ? La chute des coûts de développement va donner de nouveaux degrés de liberté. Jusqu’à aujourd’hui le développement d’une interaction particulière dans le standard QTI faisait l’exception, on avait recours au format PCI (Portable Custom Interaction) et l’innovation passait par des coûts de développement conséquents. Concernant l’existant, c’est-à-dire les interactions standards, les utilisateurs ayant moins de budget adaptaient leur contenu. On faisait avec. L’IA bouleverse les habitudes aussi bien pour la modernisation de l’existant que pour l’innovation. Le grand chantier du « Digital Assessment » a commencé. Des outils facilitant sa mise en œuvre vont arriver. Les institutions en charge de démarche évaluatives seront impactées : nous serons témoins de leur capacité d’adaptation. Mais le domaine s’étendra également aux établissements, aux enseignants et aux élèves bien entendu. L’exploitation fine des résultats pourrait ouvrir de véritables perspectives dans le management de l’appareil éducatif pour les institutions qui se doteront d’agent IA d’évaluation, pour les enseignants qui bénéficieront d’une nouvelle aide pédagogique et didactique alors que les élèves verront arriver leur coach IA pour favoriser leurs apprentissages.
L’approche que je nomme ici le DAD devra avoir comme souci de mettre en cohérence cette multiplication des démarches évaluatives dans le respect des élèves comme des enseignants.
Dans un prochain article, je montrerai de quelle manière l’IA bouleverse les plateformes d’évaluation numérique en proposant son assistance dans la création des items et des tests, dans la correction et dans la constitution de rapport.
Je suis à votre disposition pour continuer le débat à travers les commentaires.
Pensez à partager cet article.
En vous remerciant.
Jean-Philippe Rivière