加入好友 登入/註冊
本會期刊
台灣急診醫學通訊

第四卷第四期
刊登日期:2021/08/30
Taiwan Emergency Medicine Bulletin 4(4) : e2021040407回上頁

致急診教師:評量的歷史演進-由數字到委員會

黃昭硯1,2   劉政亨3 
1中山醫學大學附設醫院急診醫學部
2中山醫學大學醫學系
3國立臺灣大學醫學院附設醫院新竹分院急診醫學部

有鑒於住院醫師臨床能力委員會Clinical Competency Committee, CCC)成為近年醫學教育在評量上的重要發展方向,因此本文整理一篇2020年發表於期刊Advances in Health Sciences Education的文章「A history of assessment in medical education 」1,來簡述評量在醫學教育中的演變及CCC的發展脈絡。

近年來,醫學教育中評量(assessment)的內涵一直在轉變。原文1將其分為三種演進階段:以測量為依歸的評量(assessment as measurement)、以評判為依歸的評量(assessment as judgement)、以系統為依歸的評量(assessment as system)。這三種演進階段並不互相獨立,而是彼此重疊且互相影響的。

以測量為依歸的評量(assessment as measurement)

在1960年代,評量追求的是結構化、標準化且高度客觀的模式,就像智力測驗一般,希望透過單純的數字量化一個人的能力。在這樣的邏輯下,客觀的評量應該屏除評分者的個人判斷,並強調測量工具的準確性,而評量所得出的量化結果多半被用來區分學生為通過或不通過。研究也指出,這樣的評量必須面對信度及效度的問題,乃至於針對評量有一系列的文獻2,3在探討效度證據建立的過程,例如考試內容是否反映學習目標、題幹說明是否影響答題、試卷題目本身的內在一致性、鑑別度是否良好、以及評量本身是否能呼應真實世界中其他的量測方式。若未注意相關細節,當一份筆試題目比重偏向冷門的內容時,剛好準備到的考生就可能順利通過,而其應答筆試的解題能力則未必能代表在實務中解決問題的能力。

臨床的勝任能力包含了知識、態度、技術與解決問題的能力等四個面向,由心理學測驗的觀點,這四種次能力應該可被單獨測量且不受彼此影響,因而發展出筆試及臨床技能考核(OSCE)等不同形式的測量工具。然而,Van der Vleuten4等人的研究卻顯示技能性測驗可以用紙本測驗來部分取代,而Swanson5也歸納出醫學評量中最重視的兩種能力:臨床推理能力與問題解決能力,其實都和背景知識呈現高度相關。在這個階段,醫學教育者們致力於發展量化評估工具,卻發現不同面向與不同性質的評估工具,彼此相關卻又有所差異,反映出評量本身的複雜性。將評量簡化成測量的過程,是這個階段面臨的矛盾。

以評判為依歸的評量(assessment as judgement)

1990年代Boud6等人提出,評量的目的應該是促進學員獨立、發展全面性觀點及批判性思考等等,但以測量做為評量的方式卻與學習背道而馳。Boud7繼而提出,只有將學員納入主動參與評量的一部分,並給予回饋才能彰顯出評量的價值。

過去的評量主要強調「胡蘿蔔與棍子」(reinforcement and punishment),以數字作為總結性的結果,忽略能力形成的過程。但評量對於學習的影響其實是相對複雜,因而產生幾種思維轉變。首先是勝任能力(competency)的概念8,勝任能力應該被視為醫學教育的結果而非個人特質,這讓教育者可以藉由有意義的回饋來強化學習。第二點是評量應該回到實際場域,以包含專業素養、自我反省、批判性思考等更多面向的考量。最後則是納入人為評判(human judgement)於評量過程9。結合上一階段發展出的信效度概念,實際工作場域中的評估(Workplace-based assessment , WBA)將可以兼顧客觀及場域真實性,讓一些無法在OSCE被測量的面向得以被觀察,如壓力下的處置判斷、與病患互動的應變能力及健保制度下行醫等等。

在WBA當中,評分者透過直接觀察進行評量並給予成績。然而,不同的評分者可能會觀察到不同面向而有不同的結果,這導致了對於客觀性的批評。事實上,Gingerich10探討了評分者差異其實是對學員能力的不同觀點,彼此屬於互補且加成,而在Olle ten Catey提出可信賴專業活動(Entrustable Professional Activities, EPA)的概念後11,讓原本概略化的WBA成績有更清楚的任務及能力導向(Competency-based)架構作為評核的依歸。然而,儘管EPA兼顧了多種次核心能力的評核,也強調了其連續性評估的特性,卻依舊受限於場合與形式,難以產生全面性的結論,而這樣的限制也促成了醫學教育評量第三階段的演進,以系統為依歸的評量。

以系統為依歸的評量(assessment as system)
這個階段以系統理論的思維來探究醫學教育中評量的角色12:1.教育是解決問題的過程,而其途徑應該是多元的。2.在不同的途徑中,適合與不適合的邊界其實是模糊的。3.如果選擇的途徑並非最佳辦法,主事者應該要察覺,保持彈性並主動調整。

在這樣的背景下,評量的形式由單一方法轉變為系統評估為導向,例如規劃性評估(programmatic assessment)的概念13,將評量視為一個整體,納入學員與老師對整體學習歷程的互動,並多方參考各種測驗及評估結果作為三角校正,猶如質性研究者以多面向的資訊來建構出預期探究的本體-學生的學習成效14

由上述的演進脈絡,不難理解住院醫師臨床能力委員會(Clinical Competency Committee, CCC)在今日所成的面貌15,除了量化的測量更重視數字背後的內涵,及如何與學員臨床勝任能力相呼應,透過老師們的集體智慧(shared mental model),與學員間的互動辯證,共同歸納出學習現況並給予以學員為中心的後續建議。總結來說,醫學教育評量的目的不在於獲取測量高分,而是以改進學員解決問題、批判思考的方法,並培養完善的專業素養及勝任能力為最終目標。


參考文獻

1. Schuwirth LWT, Vleuten CPM van der. A history of assessment in medical education. Adv Health Sci Educ 2020. 25;1045-1056.
2. Cronbach LJ. What Price Simplicity? Educ Meas Issues Pract 1983;2(2):11-12.
3. Cronbach LJ, Meehl PE. Construct validity in psychological tests. Psychological Bulletin 1955;52(4);281-302.
4. Van der Vleuten CP, Van Luyk SJ, Beckers HJ. A written test as an alternative to performance testing. Med Educ. 1989 Jan;23(1):97-107.
5. Swanson DB, Norman GR Linn RL. Performance-Based Assessment: Lessons From the Health Professions. Educ Researcher 1995; 24(5):5-11.
6. Boud D. Assessment and the promotion of academic values. Stud High Educ 1990; 15(1);101-111.
7. Sambell K, McDowell L, Montgomery C. Assessment for Learning in Higher Education. (1st ed., pp. 35-45). Routledge. 2012.
8. Van Der Vleuten CP. The assessment of professional competence: Developments, research and practical implications. Adv Health Sci Educ Theory Pract. 1996 Jan;1(1):41-67.
9. Valentine N, Durning S, Shanahan EM, Schuwirth L. Fairness in human judgement in assessment: a hermeneutic literature review and conceptual framework. Adv Health Sci Educ 2021;26(4):713–738.
10. Gingerich A, Ramlo SE, van der Vleuten CPM, Eva KW, Regehr G. Inter-rater variability as mutual disagreement: identifying raters' divergent points of view. Adv Health Sci Educ Theory Pract. 2017 Oct;22(4):819-838.
11. 
ten Cate O. Entrustability of professional activities and competency-based training. Med Educ. 2005 Dec;39(12):1176-1177.
12. Bertrand L, Thoury M, Gueriau P, Anheim É, Cohen S. Deciphering the Chemistry of Cultural Heritage: Targeting Material Properties by Coupling Spectral Imaging with Image Analysis. Acc Chem Res. 2021 Jul 6;54(13):2823-2832.
13. Schuwirth LW, van der Vleuten CP. Programmatic assessment and Kane's validity perspective. Med Educ. 2012 Jan;46(1):38-48.
14. 
Driessen E, van der Vleuten C, Schuwirth L, van Tartwijk J, Vermunt J. The use of qualitative research criteria for portfolio assessment as an alternative to reliability evaluation: a case study. Med Educ. 2005 Feb;39(2):214-220.
15. 
Promes SB, Wagner MJ. Starting a clinical competency committee. J Grad Med Educ. 2014 Mar;6(1):163-164.
回上頁