Levaluation Du Raisonnement Clinique
Levaluation Du Raisonnement Clinique
Levaluation Du Raisonnement Clinique
net/publication/41706026
CITATIONS READS
44 437
3 authors:
SEE PROFILE
All content following this page was uploaded by Cees Van der Vleuten on 09 December 2015.
Messages Clés
• Le raisonnement clinique est multidimensionnel. Son évaluation implique l’utilisation d’instruments complé-
mentaires. • La compétence à résoudre un problème clinique ne permet pas de prédire avec confiance la capacité à
résoudre un autre problème. Il convient donc d’éviter toute longue évaluation sur un même cas et de privilégier plu-
sieurs évaluations portant sur des cas courts. • Il est souhaitable d’ancrer les évaluations sur des présentations de cas
qui induisent de réelles activités de raisonnement clinique. • L’important est la tâche cognitive qu’effectue le can-
didat et non le format de la question. • Il est nécessaire de distinguer l’évaluation du processus de raisonnement de
celle du résultat de ce raisonnement. • Il n’y a pas d’avantage notable à utiliser des méthodes complexes d’établisse-
ment des scores. • Il est souhaitable d’éviter l’effet d’indice, qui mène les candidats à répondre dans une direction.
• Il est possible d’améliorer notablement la fidélité des examens en organisant des formations pour les évaluateurs.
• Tout processus d‘évaluation modifie les comportements d’apprentissage des étudiants. Il est important d’en tenir
compte lors du choix d’une méthode.
Key Messages
• Clinical reasoning is multidimensional. Its assessment implies the use of complementary instruments. • The compe-
tency to solve a given clinical problem does not permit to predict with confidence the capacity to solve another problem.
This means that, to measure competency, it is preferable using many short clinical cases instead of using a long evalua-
tion on a unique case. • Assessments should be based on clinical scenarios and cases that will induce authentic clinical
reasoning processes. • Of importance is the cognitive task carried by the candidate and not the question format. • It is
necessary to make a distinction between assessment of the reasoning process and of result of this process. • There is no
clear advantage of using complex methods to establish scores. • It is desirable to avoid the cueing effect which leads can-
didates to respond in a given direction. • The reliability of the examinations may be substantially enhanced through
training of evaluators. • Every assessment process modifies the learning behaviours of the students. This fact must be
taken into account when a method is to be chosen.
*Université de Montréal, Canada - ** Université de l’Illinois à Chicago, Etats-Unis - *** Université de Maastricht, Pays Bas.
Correspondance : Bernard Charlin, URDESS - Faculté de médecine -Direction - Université de Montréal - CP6128
Succursale centre ville - Montréal, Québec H3C 3J7 Canada - mailto:bernard.charlin@umontreal.ca
jamais un seul, étant donné la complexité du phéno- recueillir des données complémentaires. Certains arti-
mène et la multiplicité des théories existantes. fices techniques sont utilisés pour masquer les données
Le raisonnement clinique constitue une des trois com- jusqu’à ce qu’elles soient sélectionnées à l’aide d’un stylo
posantes de la compétence clinique, les autres étant révélateur. Après avoir obtenu les données d’interroga-
représentées par les connaissances (sciences de base et toire et d’examen clinique, dans la mesure du possible
sciences cliniques) et par les habiletés pertinentes (cli- conformément à la façon dont il faudrait s’y prendre en
niques, techniques et interpersonnelles). Dans une pers- situation clinique réelle, il est demandé à l’étudiant de
pective d’évaluation ces trois composantes sont souvent sélectionner les procédures d’investigation, le diagnostic
considérées séparément, de sorte que des tests spéci- et les mesures thérapeutiques appropriées. Le chemine-
fiques sont conçus pour évaluer les connaissances (ques- ment suivi par l’étudiant est alors comparé à celui d’un
tions à choix multiples par exemple), d’autres pour les expert ou d’un groupe de référence et des scores sont
habiletés (l’ECOS, examen clinique objectif et struc- attribués en fonction du caractère complet de la collecte
turé) et d’autres pour le raisonnement clinique et la prise de données, de son efficacité et de sa pertinence.
de décision. En fait, ces trois composantes sont très Cette méthode d’examen a suscité initialement un
intriquées4 et chacune d’entre elles est influencée par grand intérêt et elle devint très largement utilisée dans
tout un ensemble d’attitudes qui sont difficiles à définir des buts de certification en fin de formation ou d’attri-
et à mesurer3. bution du droit de pratique : elle était perçue comme
Depuis des décennies, chercheurs et éducateurs médi- étant une mesure valide de la capacité à résoudre les pro-
caux ont été très créatifs dans la recherche d’instruments blèmes cliniques qui permettait de donner objective-
d’évaluation qui permettraient de mesurer avec effica- ment des scores tout en reflétant assez fidèlement la réa-
cité le raisonnement clinique. Dans ce texte nous décri- lité de la vie clinique. Des préoccupations apparurent
rons tout d’ a b o rd un de ces instruments, le PMP cependant progressivement, liées soit à des limites psy-
(Patient Management Problem), qui a fait l’objet d’une chométriques soit à des doutes sur la réalité d’une capa-
très large utilisation en Amérique du Nord, notamment cité générale de résolution de problèmes cliniques7,8. Ces
dans des contextes à hauts enjeux tels que la certification préoccupations sont présentées dans la section suivante.
en fin de formation (l’attribution du diplôme). Cette Elles illustrent les problèmes auxquels fait face toute
description permettra d’illustrer les principales difficul- démarche d’évaluation du raisonnement clinique.
tés psychométriques ou pratiques auxquelles sont
confrontés les instruments d’évaluation du raisonne-
ment clinique. Nous décrirons ensuite plusieurs instru-
ments en précisant les forces et les faiblesses de chacun. Les difficultés rencontrées par l’évalua-
L’article se terminera par une série de recommandations
qui visent à optimiser ce type d’évaluation. tion du raisonnement clinique
L’effet d’indice (cueing effect)
Le PMP Cet effet9,10 suppose que si l’on présente une sélection
limitée de réponses possibles, le candidat peut recon-
(Patient Management Problem) naître la bonne réponse plutôt que la générer, ce qui
Les années 60 et 70 ont été marquées5 par la recherche dénature la tâche de résolution de problème et améliore
de méthodes qui permettraient de mesurer une compé- artificiellement la performance. Par exemple, une étude
7
tence générale à raisonner adéquatement devant un pro- portant sur l’utilisation de formats de questions diffé-
blème clinique. Une telle compétence aurait constitué rents pour des contenus similaires, a montré un taux de
une capacité stable et distincte, une stratégie qui une fois réponse inférieur de 14 % et un taux de difficulté supé-
acquise pouvait être appliquée à tout problème clinique, rieur de 18 %, lorsque la réponse devait être générée et
quel que soit le domaine concerné. L’idée du PMP 6 non simplement reconnue par le candidat.
consistait à simuler sur papier, puis plus tard sur ordina-
teur, le processus avec lequel un médecin obtient l’his-
toire, collecte les informations par l’examen clinique,
La diversité des cheminements
puis prend les décisions liées au diagnostic, à l’investiga- du raisonnement
tion ou à la prise en charge thérapeutique. On pensait à l’époque que les experts résolvaient les pro-
Un PMP typique débute par la description d’une situa - blèmes cliniques en suivant des cheminements de pen-
tion clinique. Il est alors demandé à l’étudiant de sée optimaux, parfois même des cheminements fixes
*Validité concomitante : caractère de validité d’un test appréciant, au moyen d’un coefficient de corrélation, jusqu’à quel
point les scores au test peuvent être utilisés pour estimer les scores réels effectivement obtenus par les même sujets à une
autre épreuve dont la validité a déjà été établie et reconnue.
**Validité prédictive : caractère de validité d’un test appréciant, au moyen d’un coefficient de corrélation, jusqu’à quel point
les scores au test peuvent être utilisés pour estimer les scores futurs des mêmes sujets en regard d’un performance à exer-
cer dans une situation particulière.
***Validité de construit : validité interne qui indique le degré d’adéquation entre la structure d’un instrument de mesure et
le schéma théorique illustrant les caractéristiques comportementales inter reliées du trait mesuré.
Définitions du dictionnaire actuel de l’éducation de Renald Legendre, Éditions Larousse, Paris - Montréal, 1988
REVUE INTERNATIONALE FRANCOPHONE D’ÉDUCATION MÉDICALE 45
Références
compétence au raisonnement clinique, qui devrait être d’évaluer des capacités cognitives supérieures, mais dès
le seul objet de l’évaluation. De plus, on retrouve ici lors il ne s’agit plus d’ECOS à proprement parler et il
aussi le problème de spécificité de contenu lorsqu’on convient de rappeler que l'ECOS, pour démontrer de
utilise de longues réponses pour étudier la compétence bonnes qualités psychométriques, doit comporter une
sur un nombre limité de cas cliniques16. vingtaine de stations ou plus 16. Cela en fait un examen
La question rédactionnelle peut être améliorée en utili- coûteux en ressources (matérielles et en personnel), de
sant un grand nombres de questions à réponses ouvertes sorte qu’il convient de s’assurer qu’il n’est pas possible de
et courtes, ce qui permet de faire de multiples sondages mesurer ces mêmes capacités par des instruments moins
dans la base de connaissances. Ce type de question per- exigeants.
met alors d’évaluer le raisonnement qui sous-tend un
processus de prise de décision, par exemple en deman-
dant d’exposer les raisons qui conduisent à cette prise de
Le MEQ (Modified Essay Question)
décision. Les examens à réponses courtes sont relative- Il s’agit d’une approche alternative au PMP29. Par rap-
ment faciles à construire et ils permettent d’éviter l’effet port à ce dernier elle introduit dans la simulation des
d'indice (indices qui guident vers la bonne réponse). Il données amenées séquentiellement et du feed-back. Le
est cependant difficile d’éviter toute ambiguïté dans l’in- MEQ a été très utilisé, sans doute en partie parce qu’il
titulé des questions et d’établir des critères de correction est plus facile à construire qu’un PMP. Un MEQ com-
clairs qui font consensus entre les examinateurs. Elles mence par une vignette portant sur un cas clinique. Les
sont, enfin, exigeantes en temps de réflexion pour les réponses des étudiants sont ouvertes et courtes plutôt
étudiants et en temps de correction pour les évaluateurs. que choisies dans une liste fixe d’options, ce qui permet
d’éviter l’effet d’indice. L’information nouvelle est four-
nie séquentiellement en fonction des variations d’évolu-
L’ examen clinique objectif et stru c t u r é tion qui peuvent survenir dans le cas clinique, tout en
(ECOS) prenant garde à ne pas donner des indices sur les sec-
tions préalables ou à venir dans l’examen. Bien qu’il
Ce type d’examen évalue la démarche clinique par existe peu de travaux rapportant sa fidélité et sa vali-
observation directe à partir de situations cliniques simu- dité 30, la méthode a une bonne validité apparente et
lées (vrais patients, acteurs) et standardisées (tous les apparaît réaliste.
candidats sont soumis aux mêmes tâches cliniques).
L’examen comporte des stations multiples qui évaluent
chacune des comportements distincts28. Dans chacune Les questions à appariement étendu (EMQ)
des stations, à durée prédéterminée (10 à 20 minutes Les questions à appariement étendu (EMQ, Extended
généralement), l’évaluateur utilise une grille d’observa- Matching Questions) représentent une variante du prin-
tion prédéfinie (check-list). La structure de l’examen per- cipe des QCM qui est utilisée par plusieurs organismes
met d’obtenir une bonne fidélité inter-juges. L’examen, de certification nord-américains. Elles constituent un
« performance-based », est extrêmement utilisé dans les test de reconnaissance de modèles-types (pattern reco-
pays anglo-saxons, dans des buts de certification de gnition). Chaque série de questions 31 est basée sur un
compétence notamment pour mesurer les habiletés cli- motif principal de consultation (difficulté respiratoire
niques. Il ne sera que brièvement traité ici, car il pose des par exemple), suivi d’une longue liste de diagnostics
problèmes de validité comme outil de mesure du raison- possibles (anémie, sténose aortique, pneumonie d’aspi-
nement clinique. En effet, par sa conception, il n’évalue ration, insuffisance respiratoire chronique, etc). Chaque
que des comportements observables. Or, il est difficile question représente un ensemble de signes associés au
de mesurer avec des grilles les subtilités d’une démarche motif de consultation (par exemple une femme de
de raisonnement exprimé à voix haute, de sorte que les 55 ans, fumeuse, présente une toux productive et une
grilles conduisent plus à récompenser la minutie dans la difficulté de respiration progressive depuis 5 ans). Les
collecte de données que véritablement les qualités du étudiants doivent choisir au sein de la liste de diagnos-
raisonnement clinique. tics possibles ceux qui sont pertinents compte tenu du
L’ECOS n’est donc pas, malgré des avantages indé- regroupement de signes présentés par le patient. Ce type
niables pour mesurer certaines composantes de la com- de question continue sans doute à explorer les connais-
pétence clinique, la panacée attendue en matière d’éva- sances factuelles, mais il peut être adapté à la prise de
luation du raisonnement clinique. Il est certes possible décision clinique, à l’interprétation de données et à cer-
d’utiliser les stations individuelles pour réaliser des taines activités de résolution de problèmes 21. Les ques-
oraux courts et structurés, ou tout autre test qui permet tions sont plus faciles à rédiger que les QCM et elles
semblent mieux refléter les activités cliniques que ces la capacité de détecter les personnes les plus expérimen-
dernières, tout en diminuant les chances de réponse cor- tées cliniquement, alors que les tests habituels, basés sur
recte par simple reconnaissance de la bonne réponse. les consensus entre correcteurs, permettent mal cette
Tout comme les QCM, elles peuvent être corrigées détection34. L'instrument est relativement nouveau et
mécaniquement ou être présentées sur ordinateur. Elles ses qualités psychométriques demandent à être confir-
requièrent toutefois, elles aussi, un grand travail de pré- mées par des études portant sur de larges populations de
paration et, de ce fait, conviennent mal aux examens personnes examinées. Sa structure de correction, qui
comportant un nombre limité de candidats. permet d’incorporer la variabilité des réponses d’experts
du domaine, en fait cependant un examen intéressant
pour évaluer ce que l’on désigne sous le terme de pro-
L’examen par éléments clés blème mal défini, c’est-à-dire un problème dont les don-
Chaque section de cet examen7 comporte un scénario de nées, les buts et les solutions ne sont pas univoques. Or
cas clinique, suivi par des questions conçues pour éva- en médecine, comme dans les autres domaines profes-
luer les éléments clés dans la prise en charge de ce cas. sionnels, l’expertise repose sur la capacité à résoudre les
Les questions sont de format varié, avec des QCM, des problèmes mal définis35. L’examen représente par ailleurs
questions ouvertes et courtes, ou encore des choix de un changement de perspective théorique. Jusqu’à main-
réponse dans de longues listes d’options. La méthode est tenant la démarche, en matière d’évaluation du raison-
particulièrement utile pour mesurer la capacité de prise nement clinique, a consisté à mimer la réalité le plus
de décision. Un de ses avantages est l’accent mis sur les possible en transposant le cas sur papier ou sur ordina-
éléments clés de résolution du problème concerné, de teur (PMP, MEQ…). Les données empiriques dues au
sorte que le nombre de questions dans chaque cas est problème de la spécificité de contenu ont ensuite amené
limité, ce qui permet de multiplier le nombre de pro- des adaptations (examen par éléments clés, questions à
blèmes évalués et donc ainsi de répondre aux contraintes appariement étendu,…), mais l’essence de ces méthodes
de spécificité de contenu32. Un autre avantage est la reste une simulation de la réalité. À l’opposé, le TCS
similitude avec les tâches cliniques réelles 1 8. part d’une théorie du raisonnement clinique (la théorie
L’ i n s t rument présente cependant certains inconvé- des scripts) et vise à mesurer des processus de raisonne-
nients. La préparation du matériel d’examen demande ment jugés essentiels plutôt que l’issue d’un raisonne-
un temps considérable (bien moindre que celui exigé ment devant une situation qui mime la réalité.
par la préparation d’un PMP cependant) et un grand
nombre de cas (20 à 40 cas) est nécessaire pour obtenir
une bonne fidélité21. Enfin, la nécessité d’obtenir un L’évaluation basée sur la performance :
consensus entre examinateurs sur la « bonne réponse » à
obtenir des candidats conduit à privilégier les situations Le miniCEX
d’évaluation où le consensus est facile à obtenir et à Le miniCEX (Clinical Examination Exercice) permet
délaisser les autres. d’observer directement la compétence clinique d’un
résident dans un contexte qui reflète la pratique quoti-
dienne36. L’exercice dure une vingtaine de minutes pen-
Le test de concordance de script (TCS) dant lesquelles le résident (l’interne) prend une histoire
Ce test vise à comparer l’organisation des connaissances de cas et réalise un examen physique dans une salle d’ur-
(les scripts) des candidats à celle d’experts du domaine33. gence, dans une clinique externe ou sur l’étage d’hospi-
Chaque section débute par un scénario de cas clinique talisation. À la fin de l’exercice, l’observateur donne du
pour lequel plusieurs hypothèses sont pertinentes. Le feed-back au résident et complète une grille d’observa-
format de question consiste à présenter une de ces hypo- tion. L’outil présente certaines limites, essentiellement
thèses et à demander quel effet (négatif, neutre, ou posi- en termes de fidélité inter-juges et de spécificité de
tif) aurait sur le statut de cette hypothèse la découverte contenu (un seul observateur évalue la performance sur
d’une donnée clinique complémentaire, qui n’était pas un seul cas). De plus il permet surtout d’évaluer les com-
présente dans le scénario. Les questions ultérieure s portements observables et beaucoup moins les processus
concernent d’autres hypothèses et d’autres données. Le de raisonnement, même si on demande au résident de
crédit donné aux candidats pour chaque réponse est raisonner à haute voix. Ceci s’explique sans doute par les
fonction du nombre d’experts qui ont fourni la même exigences de la situation clinique qui mobilisent les res-
réponse qu’eux. Les données publiées démontrent une sources cognitives du résident qui, dès lors, a du mal a
relative facilité de construction et d’administration du faire en plus l’effort de raisonner à voix haute. Il s’agit
test, une bonne fidélité, une bonne validité prédictive et cependant d’un outil intéressant qui donne satisfaction
aux résidents (ils sont observés de façon approfondie que soit le format utilisé dans l’examen (oral, questions
dans un but de feed-back) et qui s’inscrit dans la ten- à développements, examens par éléments clés, etc).
dance actuelle vers une évaluation centrée sur l’observa- L’évaluation doit être ancrée dans des présentations de
tion de la performance37. cas qui permettent d’induire de réelles activités de rai-
sonnement clinique. L’évaluation de la simple mémori-
Cette version abrégée (d’où le terme mini-CEX) tend sation factuelle n’est plus acceptable. Par ailleurs faire
aujourd’hui à remplacer l’ancienne version plus longue cheminer, dans des cas réels ou simulés, un candidat
(CEX), ce qui permet de multiplier le nombre de mises dans de laborieuses étapes de collecte de données et d’in-
en situations pour pallier les limites déjà évoquées liées à vestigations multiples, est une approche inefficace si
la spécificité de contenu. Ces limites sont d’ailleurs par- l’intention est de réellement mesurer les habiletés de rai-
tagées par tous les tests comparables de longue durée, sonnement clinique. Il est en effet nécessaire, en raison
tels que l’OSLER (Ob j e c t i ve Long St ru c t u re d de la spécificité de contenu, de mettre l’accent sur les
Examination Record) même si ces derniers conservent un phases de raisonnement réellement cruciales, de façon à
intérêt théorique, notamment en évaluation formative. gagner du temps d’examen et de pouvoir multiplier les
Dans un cas comme dans l’ a u t re (test court ou test cas évalués7,8,32.
long), l’observation directe de l’étudiant dans son inter- Les données de la recherche montrent qu’il est essentiel
action avec le patient est essentielle et semble apporter de se préoccuper de la tâche cognitive que doit effectuer
une valeur ajoutée à l’évaluation du raisonnement cli- l’étudiant, beaucoup plus que du format (39) qui recueille
nique38. la réponse de l’étudiant (QCM, réponse ouve rte et
courte, choix dans une longue liste d’options, ou TCS).
Cette tâche doit être suffisamment complexe pour
L’évaluation du raisonnement clinique : requérir un réel processus de résolution de problème. Il
devrait être impossible de pouvoir répondre par un
principes et recommandations simple rappel de connaissances.
Nous nous sommes limités dans cet article à la présenta- En matière de résolution de problème, la psychologie
tion des méthodes les plus utilisées, ou les plus intéres- c o g n i t i ve distingue le processus du résultat. Fa u t - i l
santes conceptuellement, produites grâce aux efforts mesurer le processus ou le résultat ? Peut-on ignorer
menés depuis plusieurs dizaines d’années pour dévelop- totalement le processus et mettre l’accent sur la qualité
per des instruments valides et fiables. Ces recherches ont de la solution ? Un haut degré de fidélité est nécessaire
par ailleurs permis d’établir quelques principes difficiles dans certains examens en raison des conséquences
à contourner en matière d’évaluation du raisonnement majeures des décisions prises. Or en règle générale les
clinique. tests qui évaluent les solutions ont des indices de fidélité
Le raisonnement clinique est multidimensionnel. Il supérieurs à ceux qui évaluent les processus de raisonne-
comporte notamment la capacité d’intégrer les données ment, en raison notamment des variations observées
(la capacité à les obtenir fait partie de l’évaluation des chez les experts dans ces processus. Il est donc envisa-
habiletés cliniques, bien que les stratégies de collectes geable d’utiliser ce type de test pour les examens de fin
appartiennent au raisonnement), de générer les hypo- de formation, d’autant plus que ce qui est attendu en
thèses pertinentes à la situation clinique, de décider du premier lieu d’un médecin qui va exercer, c’est une apti-
poids à attribuer à chaque réponse en fonction de tude à donner le bon diagnostic et la bonne conduite à
chaque hypothèse, de décider du bon diagnostic, de tenir7. L’utilisation systématique et exclusive de ce type
prendre les décisions appropriées en matière d’investiga- de test est sans doute moins défendable en cours de for-
tion ou de diagnostic, etc. Aucun instrument ne permet mation où les étapes intermédiaires de raisonnement
de mesurer toutes ces dimensions. L’évaluation de cha- doivent faire l’objet de formations et d’évaluation spéci-
cune des dimensions du raisonnement clinique suppose fiques3. Le choix des instruments de mesure dépend
donc l’utilisation d’instruments complémentaires qui donc des buts de l’évaluation et du niveau de formation
mesurent chacun une ou plusieurs de ces dimensions. des personnes testées.
Il est essentiel de tenir compte du principe de spécificité Pour terminer ces recommandations, rappelons qu’il
de contenu. Rappelons que ce principe implique que la convient : (1) de rester simple dans les méthodes d’éta-
mesure de la compétence à résoudre un problème ne blissement des scores (les méthodes de pondération
permet pas de prédire avec confiance la performance à complexes n’apportent pas grand chose) ; (2) de prendre
résoudre un autre problème. Ce principe conduit à évi- garde à minimiser l’effet d’indice qui guide vers la bonne
ter toute longue évaluation d’un même cas et à réaliser réponse, présent surtout avec les QCM ; (3) d’améliorer
des évaluations courtes sur un éventail de cas et ce, quel la fidélité des examens en organisant des formations
10. Newble DI, Hoare J, Baxter A. Patient Management 20. Streiner DL. Global rating scales. In Neufeld VR and
Problems: Issues of Va l i d i t y. Med Educ, 1982, No rman GR, Assessing Clinical Competence.
16:137-142. Springer: New York, 1985.
11. Swanson DB, Norcini JJ, Grosso LJ. Assessment of 21. Jolly B and Grant J. The Good Assessment Guide. A
Clinical Competence: Written and Computer-Based p ractical Guide to Assessment and Ap p raisal for
Simulations. Assessment and Evaluation in higher Higher Specialist Training . Joint Center for
Education, 1987, 12: 220-246. Education in Medicine. London: UK, 1997.
12. Elstein AS, Shulman LS, Sp rafka SA. Me d i c a l 22. Levine, H.G., McGuire, C.H. (1970). The validity
Problem Solving: An Analysis of Clinical Reasoning. and reliability of oral examinations in assessing
Cambridge, MA: Harvard University Press, 1978. cognitive skills in medicine. J Educ Meas, 7:63-73.
13. Gale J, Marsden P. Medical Diagnosis: From Student 23. Muzzin, LJ. Oral examinations. In Neufeld,V.R. and
to Clinician. Oxford: Oxford University Press, 1983. Norman, G.R. Assessing clinical competence. New
York: Springer, 1985.
14. Norcini JJ, Swanson DB, Webster GD and Grosso LJ.
A comparison of several methods of scoring patient 24. Solomon, D.J., Rienhart, M.A., Birdeham, R.G.,
management problems. In Proceedings of the 22nd Munger, B.S., Stranaman, S. An assessment of an
Annual Conference off Re s e a rch in Me d i c a l oral examination format for evaluating clinical com-
Education. Washington, DC: Association of petence in emergency medicine. Acad Medi, 1990,
American Medical Colleges, 1987, pp. 41-46. (Supp) 65: S43-S44.
15. Wainer H. Estimating coefficients in linear models: It 25. Swanson, D.B. A measurement framework for perfor-
d o e s n’t make no neve rmind. Ps yc h o l o g i c a l mance-based tests. In: Hart, I., Harden, R. (Eds.)
Bulletin,1976, 83: 213-217. Fu rther developments in Assessing Clinical
Competence. Mo n t real: Ca n - Heal publications,
16. Norman GR. Theoretical and psychometric conside- 1987, pp. 13 - 45.
rations. In: Report on the evaluation system for spe-
cialist certification (pp 73-80). Task force of the eva- 26. Neufeld VR. Written examinations. In Neufeld,V.R.
luation committee. The Royal College of Physicians and No rman, G.R. Assessing clinical competence.
and Surgeons of Canada. Ottawa, 1993. New York: Springer, 1985.
17. Marshall J. Assessment of Problem-Solving Ability. 27. Norcini JJ, Diserens D, Day SC et al. The scoring
Med Educ, 1977, 11:329-334. and reproductibility of an essay test of clinical judge-
ment. Acad Med 1990 (Supp), 65: S41-S42.
18. Hatala R, Norman GR. Adapting the Key Features
Examination for a clinical clerkship. Med Ed u c 28. Harden RM, Gleeson FA. Assessment of medical com-
2002, 36: 160-165. petence using an Ob j e c t i ve St ru c t u red Clinical
Examination. Med Educ, 1979 ; 13 : 39-54.
19. Jean P, Des Marchais JE, Delorme P- Apprendre à
enseigner les sciences de la santé. Guide de formation 29. Hodgkin K. and Knox JDE. Problem Ce n t re d
p ratique. Faculté de médecine des universités de Learning: The Modified Essay Question in Medical
Montréal et de Sherbrooke, 1993, 4e édition. Education Edinbburg: Churchill Livingstone, 1975.
30. Feletti GI. Reliability and validity on modified 36. Holmboe ES, Hawkins RE. Methods for evaluating
essay question. Med Educ, 1980, 55: 933-941. clinical competence of residents in internal medi-
cine : a review. Ann Intern Med 1998 ; 129 : 42-48.
31. Case SM, Swanson DB, and Stillman PS. Evaluating
diagnostic pattern recognition: The psychometric cha- 37. Dauphinee WD. Assessing clinical perf o rm a n c e :
racteristics of a new item format. In Proceedings of the where do we stand and what might we expect? JAMA
27th Conference on Research on Medical Education. 1995; 274: 741-743
Washington DC: Association of Medical Colleges,
1988, pp. 3-8.
38. Wass V, Jolly B. Does observation add to the validity
of the long case ? Med Educ, 2001 ; 35 :729-734.
32. B o rdage G, Bra i l ovsky C, Ca r retier H, Page G.
Content Validation of Key Features on a National
Examination of Clinical Decisions-making Skills. 39. No rman, G.R., Smith, E.K.M., Powles, AA.C.,
Acad Med, 70: 276-281 Rooney, P.J., Henry, N.L. and Dodd, P.E. (1987).
Factors underlying performance on written tests of
knowwledge. Med Educ, 21: 297-304
33. Charlin B, Gagnon R, Sibert L, Van der Vleuten C.
Le test de concordance de script : un instrument d’éva-
luation du raisonnement clinique. Pédagogie 40. Newble DI and Entwistle. Learning styles and
Médicale, 2002, 3 : 135-144. approaches: Implications for medical education. Med
Educ, 1986, 20 : 162-175.