Évolution de la notation électronique: évaluation automatisée des examens d’écriture

CONTACT

Publication précédente Prochaine publication

31 octobre 2024

Évolution de la notation électronique: évaluation automatisée des examens d’écriture

S’inscrire au Vretta Buzz

Il y a presque un an, j'ai écrit un article sur les aspects pratiques de la notation électronique, offrant un aperçu pratique du domaine de la notation électronique intitulé Notation à l'écran: un guide pratique. Depuis lors, les développements pratiques et les applications en temps réel ont progressé, en particulier dans l'évaluation automatisée des examens d’écriture, qui comprend à la fois des éléments de notation et de rétroaction. Cette période d'évolution m'a incité à examiner de plus près ces avancées et à développer un nouvel article destiné aux décideurs aux niveaux politique et institutionnel qui recherchent des solutions optimales pour leurs opérations de notation et de rétroaction.

De plus, comme beaucoup peuvent maintenant être enclins à utiliser Microsoft Copilot ou d'autres solutions similaires basées sur GPT dans la prise de décision pour la notation automatisée de l'écriture et la génération de rétroaction, il pourrait être utile de fournir un résumé des compromis impliqués dans la phase de mise en œuvre des solutions d'évaluation automatisée de l'écriture dans la pratique.

Cet article offrira une orientation à ceux qui explorent les options disponibles, en comparant Copilot ou des produits similaires basés sur GPT qui pourraient être plus adaptés, en fournissant une comparaison approfondie des ressources pour les décideurs dans le contexte de l'évaluation pédagogique.

Un pas en avant: l’évolution de l’écriture automatisée

Pour commencer, tout type de réponse construite par l'étudiant relèverait de la catégorie des stimuli (c'est-à-dire des invites présentées aux étudiants) des niveaux supérieurs de la taxonomie de Bloom (1956) qui analyse, évalue et crée. Les réponses construites par les étudiants sont généralement utilisées pour répondre à des questions ouvertes et varient en longueur en fonction du nombre de mots. Dans ce contexte, le terme « écriture » est utilisé pour désigner toutes les formes de réponses des étudiants, y compris les réponses à réponse courte et les rédactions de texte.

L'évaluation des réponses des étudiants, en particulier dans les textes plus longs comme les essais, comporte un risque plus élevé de subjectivité par rapport aux questions à réponses sélectionnées (comme les questions à choix multiples, le glisser-déposer ou la correspondance). Bien que les grands modèles linguistiques soient formés sur des textes humains, qui contiennent intrinsèquement des biais et de la subjectivité, l'utilisation de la technologie dans la notation peut aider à atténuer les problèmes de biais et de subjectivité. De plus, l'évaluation des écrits sans support technologique exige des ressources importantes. Ces deux facteurs: réduire la subjectivité et améliorer l'efficacité opérationnelle sont les principales raisons de l'intérêt croissant pour l'utilisation de la technologie pour l'évaluation automatisée de l'écriture.

L’évolution de l’évaluation automatisée de l’écriture a commencé avec la notation automatisée des dissertations, qui n’incluait pas de composante de rétroaction à l’époque, lancée par le Dr Ellis Batten Page à l’Université Duke dans les années 1960 avec le Project Essay Grade (PEG). Plus tard, des applications pratiques transformatrices ont émergé dans l’éducation en ligne à grande échelle grâce à la collaboration du MIT sur la plateforme EdX en 2012, faisant progresser l’utilisation de l’apprentissage automatique pour la notation des dissertations dans les cours en libre accès et augmentant l’accent sur la génération automatisée de commentaires dans l’industrie au sens large, ce qui a conduit à une demande croissante du marché. De nos jours, les développements pilotés par l’IA dans le secteur de l’évaluation de l’éducation, en particulier dans la notation et la création de rapports de rétroaction, tels que Microsoft Copilot ou tout outil basé sur OpenAI GPT, sont considérés comme des assistants intégrés pour répondre au besoin de notation.

Par ailleurs, certaines organisations d’évaluation peuvent préférer aller au-delà de l’utilisation d’assistants intégrés et opter plutôt pour des solutions d’évaluation automatisée de l’écriture spécialisées disponibles sur le marché dédié au niveau Maternelle à 12^e année conçues spécifiquement à cet effet, avec des algorithmes d’évaluation entièrement contrôlés. La raison d'être de ces organisations est de conserver un contrôle total sur les algorithmes, les modèles d'évaluation et le traitement des données, ainsi que de réaliser d'autres gains d'efficacité opérationnelle. Contrairement à Microsoft Copilot ou à des outils similaires basés sur GPT, qui proposent des modèles propriétaires, les systèmes spécialisés offrent un accès direct aux algorithmes d'apprentissage automatique et à l'architecture du modèle de base, ce qui permet une spécialisation ciblée, une plus grande personnalisation et une transparence et une confidentialité accrues - des fonctionnalités qui sont particulièrement importantes dans les contextes d'évaluation à enjeux élevés pour les fonctionnaires gouvernementaux.

Dans un exemple plus pratique, avec des modèles propriétaires, la propriété du modèle reste entre les mains du tiers (par exemple, Microsoft/OpenAI). Les organismes d'évaluation peuvent affiner ces modèles et accéder à leurs versions affinées, mais uniquement via les systèmes du tiers, car ils ne sont pas entièrement propriétaires du modèle affiné, même s'il est formé sur leurs propres données.

Analyse comparative: Faire un choix de politique institutionnelle

Pour mener une analyse de haut niveau que les décideurs peuvent facilement comprendre, une analyse comparative des tendances dans le contexte de l'industrie de l'évaluation et de la technologie éducatives utilise le cadre SOAR (Forces, Opportunités, Aspirations, Résultats; de l’anglais: Strengths, Opportunities, Aspirations, Results), qui se concentre sur l'innovation, la croissance et les aspirations, qui s'alignent bien avec les organisations d'évaluation qui donnent la priorité à la modernisation des évaluations à grande échelle.

L'analyse comparative suivante de Microsoft Copilot ou de tout autre système d'assistant intégré similaire basé sur GPT au sein d'un système principal d’évaluation d’écriture automatisée, qu'il s'agisse d'un système avec assistants intégrés ou d'un système spécialisé, est présentée à l'aide du cadre SOAR:

Éléments SOAR	Microsoft Copilot ou systèmes de support similaires basés sur GPT	Système d’évaluation d’écriture automatisée spécialisée
Forces	Capacités de traitement du langage naturel hautement flexibles, adaptables sur plusieurs plateformes et adaptées à des tâches spécifiques.	Contrôle complet, personnalisation complète, confidentialité des données et gestion sécurisée des données.
Opportunités	Capable de gérer des tâches linguistiques nuancées telles que le retour d'information contextuel et la génération d'idées, en complément des systèmes d'évaluation automatisés existants.	Modèles d’évaluation d’écriture automatisée sur mesure et pratique de notation spécialisées alignées sur les objectifs institutionnels.
Aspirations	A pour but d'offrir une rétroaction créative et adaptative et peut évoluer pour fournir un soutien plus personnalisé dans des contextes spécifiques à la matière.	Vise à atteindre une transparence et un contrôle complets sur les processus d’évaluation, avec des algorithmes personnalisables qui répondent à des normes en constante évolution.
Résultats	Support immédiat et évolutif pour divers besoins de feedback, avec des capacités d'analyse et de reformulation plus approfondies du contenu.	Des solutions d’évaluation d’écriture automatisée entièrement personnalisées qui offrent une rentabilité à long terme et un alignement avec les objectifs d’évaluation institutionnelle.

En fin de compte, l'aperçu comparatif du tableau ci-dessus, ainsi que les considérations techniques fournies ci-dessous, peuvent aider les organismes d'évaluation à évaluer les compromis entre la vitesse et l'évolutivité (Copilot/GPT) et le contrôle, la confidentialité et la personnalisation (systèmes spécialisés) en fonction des besoins spécifiques de l'institution. Un aperçu explicatif est fourni ci-dessous pour explorer les considérations techniques impliquées dans le choix de la voie de création de systèmes d’évaluation d’écriture automatisée spécialisés.

Considérations techniques: création de systèmes d’évaluation d’écriture automatisée spécialisés

L’entraînement d’un modèle avec des données est une étape technique importante lors du développement de systèmes d’évaluation d’écriture automatisées spécialisés, en particulier lorsque l’on considère la sécurité des données. L’utilisation d’une plateforme open source pour ce processus d’entraînement peut garantir la sécurité totale des données, car elle évite le stockage par des tiers. Au lieu de cela, les données restent entièrement gérées dans l’environnement de l’organisation, que ce soit dans son cloud ou sur des serveurs internes. Les scientifiques de données peuvent également choisir de travailler avec des plateformes comme Kaggle, qui fournit une large gamme d’ensembles de données accessibles au public pour l’expérimentation, qui prennent en charge des projets tels que l’analyse des réponses des étudiants sans nécessiter l’utilisation de données internes sensibles. La section suivante explique plus en détail les processus et les méthodes impliqués dans l’entraînement des données pour l’expérimentation ou l’utilisation dans des cas réels.

Processus et méthodes de formation

La formation et l'ajustement d'un modèle linguistique (par exemple, GPT/BERT/Llama) peuvent être comparés à l'apprentissage du langage chez un bébé: commencer par les lettres, comprendre leur signification et les utiliser dans des conversations de base. En pratique, la formation d'un modèle implique généralement l'utilisation de ressources telles qu'un grand corpus - Google Books ou des pages Web pour créer un vocabulaire de base, ainsi que des données antérieures initiales utilisées pour former le modèle, suivies d'un peaufinage (ajustement) supplémentaire du modèle pour l'objectif spécifique.

Une autre tâche importante consiste à décider quelle méthode de formation utiliser: une approche généralisée, qui s'appuie sur des principes ou des règles tels que des grilles d'évaluation et dépend moins des données, ou une approche basée sur les données, qui s'appuie sur des données réelles pour les modèles d'apprentissage et est plus couramment utilisée dans le traitement du langage naturel en raison de son pouvoir prédictif plus élevé par rapport à l'approche guidée par des principes. Ces deux approches ne s'excluent pas mutuellement ; en fait, il est souvent préférable de combiner des grilles d'évaluation avec les réponses des élèves, car cela crée un modèle qui bénéficie à la fois des principes fondamentaux et des modèles de données du monde réel. La section suivante développe plus en détail l’équilibre entre divers facteurs permettant de définir la qualité d’un modèle formé.

Modèle d'équilibrage pour une notation efficace

Pour obtenir un modèle linguistique à grande échelle agentique (ou d'apprentissage en une seule fois) pour évaluer les réponses des étudiants, la qualité du modèle et la qualité des points de connexion (la façon dont les composants du modèle fonctionnent ensemble) sont considérées comme des critères importants pour l'évaluation de la qualité du modèle. De plus, le compromis entre un bon format et une notation précise survient souvent parce qu'un modèle optimisé pour le format peut privilégier l'exactitude structurelle et linguistique par rapport à la profondeur du contenu, tandis qu'un modèle axé sur une notation précise peut négliger les problèmes de formatage plus petits dans la poursuite d'une précision basée sur le contenu. Bien que la plupart des modèles linguistiques à grande échelle formés pour la notation automatisée visent uniquement à prédire les scores plutôt qu'à fournir un format de réponse, comme le font les modèles GPT, un modèle linguistique à grande échelle agentique bien conçu doit équilibrer les deux en incluant une forte prise en compte des points de connexion qui permettent à l'évaluation du format et du contenu de fonctionner harmonieusement. Conformément aux critères de qualité pour la mise en œuvre de l'une ou l'autre option, des décisions importantes doivent être prises concernant l'allocation des ressources et la prise en compte des gains stratégiques discutés plus loin.

Considérations sur les investissements et la stratégie

Les organismes d'évaluation sont de plus en plus confrontés au défi de décider s'ils doivent investir dans la création et la maintenance de systèmes d’évaluation d’écriture automatisées spécialisés, adaptés aux exigences spécifiques de l'évaluation de l'écriture, ou opter pour des systèmes avec assistants intégrés, qui offrent un contrôle limité et une évolutivité indépendante. L'intégration des seules rubriques dans le grand modèle linguistique peut s'avérer insuffisante pour sélectionner un exemple - une réponse idéale d'un élève de haute qualité qui illustre concrètement les normes de référence, une tâche qui peut être fastidieuse pour les enseignants lors de la notation du travail des élèves et nécessiter l'utilisation de la technologie.

En outre, il est très important pour les organismes d'évaluation de décider soigneusement de leur stratégie de dépendance aux scores des machines par rapport aux scores humains sur leur chemin de modernisation à mesure qu'ils avancent. Par exemple, le moteur de notation peut recommander aux évaluateurs humains le score suggéré avec un niveau de confiance, et les évaluateurs humains peuvent décider d'adopter ou non le score. Une autre décision clé à prendre en compte est de savoir si la solution fournie serait indépendante du cloud, aidant les institutions à basculer entre des fournisseurs de cloud spécifiques à la région pour la résidence des données, ce qui s'accompagne de flexibilité et de conformité aux réglementations locales sur les données.

En résumé, Microsoft Copilot ou tout autre système d’assistant intégrateur similaire basé sur GPT sont excellents pour les institutions à la recherche de solutions rapides et évolutives, bien qu’ils offrent une approche moins spécialisée. En revanche, les systèmes d’évaluation d’écriture automatisées spécialisés offrent un contrôle total, une flexibilité et un alignement avec les objectifs d’évaluation institutionnels, ainsi qu’une confidentialité et une transparence des données améliorées, bien qu’ils nécessitent plus de temps et de ressources pour être développés et maintenus dans une optique à long terme.

Créer une culture de notation électronique: les voies d'une évaluation d’écriture automatisée

L'évolution de la notation électronique offre aux organismes d'évaluation de multiples voies pour intégrer des systèmes d'évaluation automatisée de l'écriture dans leurs processus. Par conséquent, les organismes d'évaluation doivent trouver un équilibre entre la rapidité, l'évolutivité et la facilité d'intégration, que proposent des solutions telles que Microsoft Copilot ou des systèmes similaires basés sur GPT, et le besoin de contrôle, de confidentialité, de spécialisation personnalisée et de sécurité des données, que fournissent les systèmes d’évaluation d’écriture automatisées spécialisés. Si les options de déploiement rapide peuvent être attrayantes pour leur commodité, investir dans des systèmes entièrement personnalisés et spécialisés permettrait de s'aligner sur les objectifs institutionnels et d'offrir une plus grande transparence. En fin de compte, la bonne voie dépend des besoins spécifiques de chaque organisation, de ses ressources et de sa vision à long terme pour moderniser ses pratiques d'évaluation. Au fur et à mesure qu'elles construisent une culture de notation électronique, les organismes d'évaluation doivent peser de manière stratégique les compromis entre une mise en œuvre rapide et la flexibilité nécessaire pour façonner leurs processus de notation afin de répondre aux demandes futures.

Webinaire à venir: Meilleures pratiques en matière d'évaluation d’écriture automatisée

À travers cet article, j'ai cherché à encourager les discussions autour des pratiques et des solutions d'évaluation d'écriture automatisée. Pour poursuivre cette conversation, j'organiserai une discussion virtuelle sur ce sujet afin de partager les meilleures pratiques suivies à l'échelle internationale. Si vous souhaitez participer à cette discussion à venir et entendre nos pairs du secteur de l'évaluation, n'hésitez pas à m'envoyer un message sur LinkedIn. Je vous fournirai les détails du webinaire.

À propos de l'auteur

Vali Huseyn est un spécialiste de l'évaluation pédagogique, reconnu pour son expertise dans les projets de développement de divers aspects du cycle d'évaluation. Sa capacité à conseiller sur l'amélioration des modèles de prestation d'évaluation, l'administration de différents niveaux d'évaluation, l'innovation dans l'analyse des données et la création de techniques de rapports rapides et sécurisées le distingue dans le domaine. Son travail, enrichi par des collaborations avec des entreprises de technologie d'évaluation et des organismes de certification de premier plan, a considérablement fait progresser les pratiques d'évaluation de sa communauté. Au Centre d'examen d'État d'Azerbaïdjan, Vali a contribué de manière significative aux transformations des évaluations locales et a dirigé des projets régionaux clés, tels que la plate-forme unifiée d'enregistrement et de suivi des programmes de tests internationaux, les examens des évaluations linguistiques alignées sur le CECR, les formations à l'alphabétisation en évaluation soutenues par le PISA et le projet d'audit institutionnel, tous visant à améliorer la culture de l'évaluation dans tout le pays et dans l'ancienne région de l'URSS.

Vali a reçu deux bourses prestigieuses pour ses études: il a obtenu une maîtrise en planification et administration des politiques éducatives à l'université de Boston grâce à une bourse Fulbright et a également étudié l'évaluation pédagogique à l'université de Durham grâce à une bourse Chevening.

Découvrez les pratiques guidées en matière de modernisation des évaluations et obtenez des informations sur l'avenir des évaluations pédagogiques en vous connectant avec Vali sur LinkedIn.

Publication précédente Prochaine publication