reponse exam

Faculté des sciences de l'éducation

Département d'études en éducation et d'administration de l'éducation

ETA 6536, Session d'été 2000 --- Examen de fin de session

Daniel Meilleur

Question 1

Etes-vous d'accord avec l'énoncé qui suit? Justifier s.v.p. votre réponse: "La mesure et l'évaluation jouent un rôle central dans la création d'un milieu éducatif de qualité."

Richard J. Stiggins, du "Assessment Training Institute", Portland, Oregon, mentionne, dans Auditing the Quality of Your Classroom Assessment (1):

All available evidence suggests that teachers will be expected to be far more assessment literate in the future than they are today or have been in the past. Virtually every set of standards of teacher competence developed recently [...] holds the expectation that teachers will be competent in assessment.

Ceci s'explique de la façon suivante. Il faut d'abord définir trois fonctions de l'évaluation: (tel qu'élaboré dans la typologie de Bloom et al. qu'emploie Scallon (2))

l'évaluation diagnostique,
l'évaluation sommative et
l'évaluation formative.

Dans sa fonction diagnostique et sommative, l'évaluation tient un rôle important par son utilisation à des fins d'orientation et de certification; important car il en va, d'une part, de la vie future de l'élève ou de l'étudiant que celui-ci soit correctement orienté, et, d'autre part, de l'intérêt de la société qu'il soit justement accrédité.

Si on conçoit l'éducation comme un processus de production de changement d'un comportement "A" vers un comportement "B", on doit être en mesure:

d'estimer "A" au départ, et
de savoir si "B" est atteint à la fin du processus.

Ce processus doit se dérouler selon un plan rigoureux où sont définis des objectifs généraux, eux-mêmes ramifiés en objectifs spécifiques puis décomposés en tâches particulières pour chacun des objectifs visés. C'est en s'appuyant sur une telle démarche que l'on peut construire des tests valides et fiables, en autant que les objectifs soient "comportementaux", c'est-à-dire qu'ils soient observables et mesurables.

Si les fonctions diagnostiques et sommatives de l'évaluation semblent aller de soi et ont été, durant longtemps, sa raison d'être en éducation, c'est par sa fonction formative que l'évaluation est appelée à jouer un rôle central en éducation. Les modèles éducatifs ont d'abord été conçus selon une théorie héréditaire: l'enseignement constituant une forme de sélection parmi d'autres. Puis se sont développées des théories "développementales", suivant lesquelles un apprentissage donné serait fonction du temps disponible et du temps nécessaire; le temps disponible étant fixé, le temps nécessaire variant selon les prérequis cognitifs et affectifs de l'élève, la qualité de l'environnement, etc.

Donc, pour assurer la réussite, il faut des préalables, dont les niveaux sont évalués par les tests diagnostiques, et un environnement de qualité, dont l'évaluation formative fait partie.

Par définition, l'évaluation formative implique une régulation de l'apprentissage, et ce, à deux niveaux:

au niveau de l'élève/étudiant, par le feed-back donné et la remédiation aux faiblesses constatées, et
au niveau pédagogique, par la modification des programmes et des pratiques d'enseignements permettant une augmentation de leur efficacité.

C'est en ce sens que l'évaluation joue un rôle central dans la création d'un milieu éducatif de qualité.

(1) Stiggins, Richard J.: Auditing the Quality of Your Classroom Assesment ftp://ftp.prenhall.com/pub/ect/education.q-089/linn/auditing.pdf

(2) Scallon, G.(2000): L'évaluation formative, ERPI., p. 14-15

Question 2

Faire une brève description de l'importance de la définition et de la classification des objectifs dans la planification et la réalisation d'une démarche de l'évaluation des apprentissages.

Qu'ils soient posés dans le cadre d'une pédagogie par objectifs, d'une pédagogie de maîtrise, de situation ou toute autre approche pédagogique qui sous-entend l'existence d'objectifs, ces derniers doivent être définis avec soin, de façon à être opérationnels. On se réfère ici à la possibilité de traduire un concept en un indicateur identifiable qui puisse lui-même se traduire en une réalité mesurable. L'exemple du thermomètre pour mesurer la température, alors que l'appareil ne mesure que l'expansion des volumes --effet indirect de la température--, peut servir à illustrer le propos.

Ensuite, il est nécessaire de délimiter le contexte de mesure pour que celle-ci puisse être standardisée. C'est à cette fin qu'ont été développés des taxonomies qui définissent et classifient les objectifs d'apprentissage. Il s'agit:

d'avoir un langage commun, afin de pouvoir comparer les résultats, les interpréter et savoir y répondre adéquatement, et
d'être conscient de ce qu'on veut évaluer et de ce qu'on évalue.

Pour être efficace, une taxonomie doit pouvoir respecter les principes

d'exclusivité (la définition d'un élément ne doit pas en recouvrir un autre), et
d'exhaustivité (chaque élément de l'ensemble doit être couvert par une définition).

La taxonomie la plus utilisée est celle de Bloom. Prenons-la comme exemple. Dans le domaine cognitif, on identifie des niveaux de connaissances et d'habiletés qui vont de l'acquisition des connaissance aux capacités de synthèse et d'évaluation, chacun de ces groupes étant ramifié en des définitions plus précises. L'idée est que, avant même d'attribuer une valeur à quelque chose, on doit savoir exactement quelle est cette chose que l'on mesure. La mesure est l'attribution d'une valeur aux caractéristiques d'un objet. Si ces caractéristiques ont été mal définies, ou que, conséquemment à une classification erronée, ils aient une définition ambigüe, toute mesure sera dénudée de sens.

Il faut noter que la mesure n'est pas l'évaluation mais un pré-requis à l'évaluation. L'évaluation donne une signification aux mesures.

Donc, ayant bien défini le niveau taxonomique que l'on veut tester ainsi que le champ d'application, on pourra s'assurer que le test est congruant, c'est-à-dire qu'il y a cohérence entre les objectifs et les items choisis, autrement dit, que l'on teste ce que l'on veut tester.

Question 3

La mesure et l'évaluation sont-elles essentielles pour le développement des sciences de l'éducation?

Les connaissances des phénomènes et des mécanismes liés à l'apprentissage sont très imparfaites. Les théories de l'apprentissage peuvent se diviser en deux groupes:

les behavioristes et
les cognitivistes.

Les théories behavioristes, en vogue jusqu'à tout récemment en éducation, conçoivent l'apprentissage comme un mécanisme "stimulus -> retour". L'élève, individu sur lequel agit un stimulus, fournit en retour une réponse plus ou moins positive quant au degré d'apprentissage atteint. Il s'agit donc d'améliorer le "stimulus" (interprété comme "qualité de l'apprentissage" en termes d'outils pédagogiques stimulants disponibles) pour améliorer l'apprentissage.

Les théories cognitivistes considèrent que l'"apprenant" a un rôle actif à jouer dans le phénomène d'apprentissage. L'attention est portée à cette "opération inconnue" qu'est l'acquisition de connaissance et qu'on essaie de définir par la mesure des paramètres.

Plus concrètement, le rôle de l'évaluation dans le développement des sciences de l'éducation tient, comme mentionné précédemment, dans sa fonction de régulation.

Régulation de la pédagogie d'abord, en développant des tests qui découpent le contenu des objectifs et offrent un choix significatif de mauvaises réponses caractéristiques, dans le but d'analyser, avec les outils statistiques appropriés, les bonnes et les mauvaises réponses obtenues de façon à dresser un profil d'un groupe d'élève, permettant ainsi de cibler les faiblesses et de raffiner les interventions requises.

Régulation auprès de l'élève ensuite, dans sa démarche d'apprentissage ou parcours de formation, en lui fournissant un feed-back de qualité. Ceci peut être fait en élaborant, par exemple, des "épreuves-exercices" (1) où l'élève constate lui-même ses faiblesses à l'aide de grilles d'autocorrection. On peut même ajouter un "feed-back explicatif" qui remédie aux lacunes en même temps qu'il les révèlent. On peut élaborer des échelles descriptives pour évaluer des productions complexes. On peut utiliser des tests de type "liste de vérification" pour mesurer les processus d'apprentissage autant que le "produit fini". Par ailleurs, le développement des techniques informatiques permet déjà le développement d'apprentisage où le principe de la rétroaction, à la fois comme moteur de stimulation et comme correcteur de tendances erronées, est poussé à des niveaux impossibles à réaliser par les moyens traditionnels.

En conclusion, il existe plusieurs voies par lesquelles la mesure et l'évaluation contribuent au développement des sciences de l'éducation.

(1) Scallon, G. (2000). Op. cit. p.94

Question 4

Comment distinguer entre ces trois types d'erreur que l'on observe dans la pratique de la mesure et de l'évaluation; donner un exemple pour chaque cas: erreur de mesure, erreur échantillonnale, et errreur systématique.

L'erreur de mesure est l'erreur due à l'imprécision de l'instrument enmployé. Dans le domaine de la physique, c'est, entre autre, l'erreur en deça de la gradation minimale de l'échelle de l'instrument utilisé. Par exemple, ±1/16" sur une règle graduée au 1/8" près. Transposé en éducation, l'erreur de mesure est l'erreur attribuable à l'instrument utilisé, trop peu précis pour le degré de raffinement recherché, ou lorsque l'indice de performance choisi ne correspond pas parfaitement avec l'objectif spécifique visé, par exemple un test de physique faisant appel à des connaissance de grammaire, ou lorsque les résultats dépendent de conditions externes à l'enseignement.

L'erreur échantillonnale, en statistique, est l'erreur attribuée à la constitution de l'échantillon. Plus la taille de l'échantillon est petite, plus l'erreur échantillonnale risque d'être élevée. Dans le domaine de la mesure et évaluation en éducation, cette erreur pourrait se produire, par exemple, si on limite trop le nombre de questions pour mesurer l'atteinte d'un objectif donné dans un test. On la réduit en augmentant le nombre de questions par objectifs couverts.

L'erreur systématique est due à la tendance de l'observateur soit:

à rester sur une première impression (effet de halo), ou
à n'accorder que de bons résultats, ou inversement, de mauvais (biaisage personnel), ou
à rendre les observations dépendantes les unes des autres, par exemple, en cotant "médiocre" une performance moyenne parce qu'on a été impressionné par une performance "excellente", ou
à n'utiliser que le centre d'une échelle (effet de centrage) ou, inversement, que ses extrémités (effet de dispersion), etc.

Question 5

Comment peut-on assurer le maximum de la validité de contenu pour un instrument de mesure? Donnez un exemple.

La validité de contenu pour un instrument de mesure, c'est-à-dire la congruence de l'enseignement avec la mesure de cet enseignement, est assurée par l'unicité entre le concept et son indicateur. Les différentes techniques utilisées pour tendre vers cette adéquation sont:

La transformation linguistique pour le libel des questions, schématisée par les étapes suivantes:
- recherche des mots clés (noms, adjectifs, adverbes, etc.), soit qu'ils soient utilisés par les experts en la matière, ou qu'ils se présentent fréquemment dans les textes couvrant la matière;
- identification, élaboration des phrases importantes qui contiennent ces mots-clés;
- clarification, "purification" des phrases, notamment en éliminant les références aux autres parties du texte, afin de les rendre autonome;
- identification des relations causales, temporelles, illustratives, séquentielles;
- simplification des phrases en s'assurant que chaque partie y joue un rôle utile (limitatif, syntaxique ou de complétion)
La définition des formes d'item, de façon à créer un univers de questions à partir d'une forme donnée, puis de délimiter cet univers de façon à couvrir le niveau taxonomique choisi. Par exemple, en mathématique:
problèmes de la forme "a + b = c"

avec, comme délimitation:

0 £ {a, b} £ 9
L'élaboration d'items qui mesurent un concept en utilisant les principes de la taxonomie, c'est-à-dire en définissant les caractéristiques de chaque concept, en les divisant en composantes puis en subdivisant successivement chacune de ces composantes jusqu'à l'atomicité.

Question 6

Un enseignant, pour fin d'évaluation sommative de ses élèves, les compare les uns aux autres en se basant sur les notes qu'ils ont obtenus au cours de l'examen. Ce procédé est-il conforme aux exigences d'une interprétation normative? Pourquoi?

En principe, oui, en autant que la mesure et l'échelle utilisée soient la même pour tous. L'interprétation normative, suivant Morissette (1), consiste à examiner la position d'un élève par rapport à l'ensemble des élèves ayant subi un même examen. La notation situe alors l'élève dans le groupe (quintile, centile, etc.)

(1) Morissette, D. (1996): Évaluation sommative, ERPI. p. 18 et 110

Question 7

"La fidélité d'un instrument de mesure est une condition nécessaire mais pas suffisante pour sa validité." Êtes-vous d'accord avec cet énoncé? Pourquoi?

Non.

La fidélité et la validité d'un instrument de mesure sont deux caractéristiques indépendantes.

La validité d'un instrument de mesure, tel qu'élaboré dans la réponse à la question 5, est son habileté à mesurer ce qu'il prétend mesurer. C'est la pertinence des indicateurs par rapport au concept.

La fidélité, ou "fiabilité" d'un instrument de mesure, est son aptitude à donner toujours la même indication quand on répète la mesure. Elle a à voir avec la précision d'un instrument.

Un instrument peut très bien être fidèle sans être valide.Ce serait le cas, par exemple, d'un instrument qui mesure les dimensions du crâne pour vouloir indiquer l'intelligence. Par ailleurs, un instrument peut très bien être valide sans être fidèle. Ce serait le cas, par exemple, d'un test qui mesure une production complexe à l'aide d'une échelle d'appréciation appropriée mais dont les différents échelons ne seraient pas suffisamment explicités.

Donc, la fidélité n'est une condition ni nécessaire, ni suffisante pour la validité