2015年8月23日 星期日

(文章閱讀) 評估的基本概念

評估的基本概念
Basic Concepts of Assessment
謝清麟、陳官琳

第一節  評估之價值/用途與目前臨床評估之瓶頸
評估是指依照一定的步驟法則,儘可能準確地描述物理或行為的特質,評估結果通常以數值呈現,以量化被評量之特質。
評估可以客觀、深入、全面地描述個案的臨床特質與問題,因此有效的評估能引導臨床人員進行臨床推理與臨床決策。以臨床收案的程序而言分為: 接案時的初次評估治療過程中執行再評估結案時的療效評估。
評估必須考量臨床實用性,包含使用評估工具的成本花費、評估時間、訓練時間、事前準備,與評估步驟簡單或繁複等。然而,目前臨床評估面臨至少四項問題,無法精準、快速且全面性掌握個案的問題,導致臨床評估效率低落:
1. 評估工具不夠精確,難以呈現個案的問題。
2. 評估工具涵蓋層面有限,無法全面掌握個案的功能與問題。
3. 評估結果難以判讀,臨床人員難以掌握評估所得數據代表之意義,更難以轉譯解釋讓個案及其家屬瞭解。
4. 項目過多耗費時間,且過於龐雜難以統整。
綜而言之,目前臨床現況由於缺乏精簡快速、精準且全面性的評估工具,導致臨床人員難以有效率地掌握個案的臨床問題。因此,統整現有評估工具,並且改善評估工具之精準度與效率,是臨床人員與研究人員當前首要面對的問題。

第二節  心理計量特性
評估工具必須具備良好的心理計量特性,才能真正反映臨床評估與研究結果的真實性與準確性。

. 心理計量之定義
心理計量(psychometric)是指評估個人心理(psychological)層面變項(包含知識、技巧、能力,或個性等)之科學。

. 評估工具需具備之心理計量特性
Kirshner Guyatt認為健康相關評估工具的實用功能有三:區辨功能(discrimination)、預測功能(prediction)及療效評估功能(evaluation)
區辨功能指評估工具能否區辨個案之間功能之差異,區辨功能亦指評估工具能否區辨不同群體間另一相關特質之差異,以確定個案之間功能程度之差異,進而協助擬定適切的治療計畫。
欲達成區辨功能之評估工具必須具備區辨效度(discriminative validity)亦需避免天花板效應 (ceiling effect),或地板效應 (floor effect)以區辨個案間之功能差異。
預測功能指評估工具可否預測個案未來的某些目標特質,此功能可幫助預測個案未來之健康照護需求,以便醫療人員及家屬及早進行必要的治療與準備。
療效評估功能指評估工具能否反應個案於功能上之重要改變,以判定治療之成效。欲達成療效評估功能之評估工具必須具備反應性(responsiveness),方能精確呈現個案臨床特質功能的變化與判斷個案接受治療後進步與否。

第三節  信度
. 信度之定義
信度(reliability) 指評估工具重複評估一穩定特質時,可獲得相同結果的一致程度(level of agreement)、穩定性(stability, reproducibility),與隨機評估誤差(random measurement error)之大小

. 信度之種類
復健領域評估工具最相關的信度為再測信度(test-retest reliability) 、施測者間信度(inter-rater reliability),與內在一致性(internal consistency)。表7-1 彙整各種信度的定義、統計指標、判讀標準,和臨床涵義與價值。


()再測信度

.再測信度之定義
欲瞭解評估工具所得的評估結果是否穩定,最直接的方法即檢驗其再測信度。再測信度(test-retest reliability)之定義為在不同時間點重複使用同一評估工具於同一個案(欲評估之特質穩定),所獲得結果之一致程度。良好的再測信度是重複評估或驗證療效的基本先決條件,具備良好再測信度的評估工具可確保所偵測到的改變主要來自受測者本身的改變,而非隨機評估誤差

.再測信度之檢驗方式
再測信度的檢驗方式即以同一評估工具於不同時間點重複評估相同的受試者二次,再以統計驗證前後二次評估分數之一致性
若二次評估分數的相關不高或很低,表示評估結果不穩定。影響二次結果不穩定的因素,可能來自於評估工具設計不良、評估者評估的標準或過程不一致、評估情境的改變,或受試者本身情況的改變等。再測信度愈高,表示評估結果受到干擾因素的影響愈小,愈能穩定地評估欲評估的特質。
檢驗再測信度必須選擇一個適當的再測間隔時間,以減少記憶及練習效應。間隔時間長短,目前沒有廣被接受的單一標準。多數研究採用一週至二週的時間間隔。
另外,需考量欲評估的特質、用途及受試者年齡等因素。一般而言,認知評估結果受到練習(或學習)效應的影響頗大,進而影響認知評估工具之數據解讀及臨床適用性。臨床上,若於短時間(如24週)評估個案之認知功能,將難以解釋認知評估工具之數據變化,是否由於學習效應所造成。

.再測信度之統計指標與解釋
評估工具的再測信度驗證,可分為個別項目與總分二個層次。檢驗評估工具個別項目之再測信度可依類別變項與順序變項,分別使用Kappa(κ)weighted Kappa(κw)。對於κ 及κw 之解釋:0.61 0.80 為良好,0.811.00 為理想。
驗證評估工具總分之再測信度則使用組內相關係數(intraclass correlation coefficient; ICC)ICC0.7 可用於群體分數的比較(如實證研究中,比較實驗組與對照組之功能差異);>0.90 可用於個別個案間分數的比較。
再測信度的高低和二次間隔時間的長短有密切的關係。就一般復健領域的評估而言,間隔時間愈長,信度愈低;間隔時間愈短,信度愈高。然而認知測驗由於練習效應,間隔時間而認知測驗由於練習效應,間隔時間愈短,信度可能愈差。因此,解讀再測信度數據時,二次間隔時間的長短宜列入考量。

()施測者間信度

.施測者間信度之定義
施測者間信度(inter-rater reliability)則為不同評估者評估相同對象所得結果的一致性,用以檢驗工具的評估結果是否受到「評估者」或「施測者」的主觀判斷影響。良好的施測者間信度,可確認評估工具評估結果的客觀性,不因不同評估者而改變評估結果,可加強評估結果或研究結果的類推性。
施測者間信度之意義有二,其一為雖然評估工具多半具有明確的評估或訪談過程,以及客觀的評分標準,但仍需評估者針對個案的功能或陳述,加以主觀判斷,因此可能影響不同施測者評估結果的一致性。另外,臨床個案經常被不同治療師或實習學生評估,不同治療師及實習學生間評估結果的一致性,對於臨床決策與療效判斷,皆將產生影響。

.施測者間信度之檢驗方式
施測者間信度的檢驗方式即以二個或二個以上的施測者於同一時間點(或短期間內,受評估特質未發生變化)獨立評估同一受試者,再檢驗施測者間的評估結果一致性。

.施測者間信度之統計指標與解釋
驗證評估工具的施測者間信度與再測信度類似,可分為個別項目與總分二個層次驗證評估分數的一致性。
檢驗評估工具個別項目之施測者間信度可依類別變相與順序變相分別使用Kappa Weighted Kappa。對於κ之解釋:0.61 0.80 為良好,0.811.00 為理想。驗證評估工具總分之施測者間信度則主要是使用ICC0.7為群體個案之最低可接受標準;0.90為個別個案之最低可接受標準。

()內在一致性
.內在一致性之定義
內在一致性( internal consistency或稱內部一致性)指評估工具中,各生理疾病職能治療學單項題目所得分數間的相關性及各單項分數與所有項目總分之相關性,內在一致性代表一評估工具所有項目之同質性。項目間同質性愈高,評估結果愈穩定(信度愈佳)。其原理為利用多項相關的題目測量某一功能或特質的結果,應比利用少數題目測量,可獲致較穩定(信度較高)的評估結果。

.內在一致性之檢驗方式
內在一致性只需一次的評估結果即可驗證。但再測信度與施測者間信度的檢驗方法,均需以同一評估工具評估受試者二次或二次以上。

.內在一致性之統計指標與解釋
對於連續尺度的資料,可以Cronbach's alpha 檢驗評估工具的內在一致性;對於非連續尺度的資料,則以Kuder-Richardson statistic 檢驗。內在一致性數值的解釋如下:>0.7 為良好,可用於群體分數的比較;> 0.9 為優,可用於個別個案間分數的比較。

()評估誤差
在臨床上,大致每週或隔週必須對於接受治療的患者進行再評估。然而,所有估所得之數據皆包含評估誤差。評估誤差根據來源不同,可分為系統誤差與隨機誤差。
系統誤差是由某種固定的原因造成,使評估結果一致地偏高或偏低,當重複進行評估時會重複出現。隨機誤差則是由隨機、偶然的原因造成的。系統誤差影響的是評估工具之效度,隨機誤差影響的是評估工具之信度。掌握每一評估工具的評估誤差,有助於評估結果的解釋與臨床決策的制定,以下將介紹說明各種評估誤差之估計。

.評估標準誤
評估標準誤(standard error ofmeasurement; SEM)信度指標其中一種,SEM代表個別評估結果之不穩定程度或隨機評估誤差之大小。SEM 數值即用來解釋個別分數的評估誤差的大小。SEM 的估計公式如下:
SEM = SDbaseline
其中R ICC 值,即由再測信度的數值推估個案評估多次之誤差帶(error band) 即其68%信賴區間或95%信賴區間。

.最小可偵測之變化值
臨床上,最小可偵測之變化值(minimal detectable change; MDC)可用以判斷個別個案改變的分數是否超過隨機評估誤差。個案至少被評估二次才能獲致改變的分數,若要具有95%的信心水準宣稱個案的變化超過隨機評估誤差,則需要加上二次評估所增加之誤差,SEM×1.96×,因此MDC的估計方式為:
MDC = SEM×1.96×
MDC 解釋上,若評估工具的MDC 低於評估工具總分10%,可視為良好可接受的評估誤差。MDC 的意義代表臨床上單一個案的前後二次評估分數的改變須超過MDC 值,才有95%的信心水準宣稱前後分數的改變超過隨機評估誤差。

第四節   效度
. 效度之定義
效度(validity)評估結果的正確性,也就是代表評估工具是否能真實/正確測量到欲評估的建構或特質。評估工具的效度愈好,愈能測量出欲評估的受試者特質。

. 效度之種類
評估工具之效度有諸多種類,以下將介紹與評估工具相關的效度,包含內容效度、表面效度、效標關聯效度,與建構效度。7-3彙整評估工具效度的定義、統計指標、判讀標準,和臨床涵義與價值。



()內容效度

.內容效度之定義
內容效度(content validity)指評估工具內容的適當性,包含評估工具項目的廣度含括欲評估之特質,以及評估工具內容與欲評估特質/對象之相關性。可反應既定或特定技巧與知識是否都包含在評估項目中,以及項目數目分配是否適當。

.內容效度之檢驗方式
通常聘請相關專家以檢驗評估工具的內容效度,主觀判定整體評估與評估項目是否評估到欲評估的特質或建構,以及是否有相關的項目未包含在評估工具中。可藉由專家對於評估工具整體與個別項目之同意百分比作為判斷良窳的統計指標。

()表面效度
表面效度(face validity)是指評估工具項目是否「明顯地」、「無疑義地」評量欲評估之特質。表面效度與內容效度類似,皆是主觀判斷(專家或病患)評估工具是否量測到欲評估之特質,但著重於評估工具建構完成之後的檢驗。

()效標關聯效度

.效標關聯效度之定義
效標關聯效度(criterion-related validity)是指評估工具的評估結果與效標(criterion)之評估分數相關聯的程度。效標是指公認良好的評估工具所評估或預測的某些行為或特質。

.效標關聯效度之種類
效標關聯效度可再分為同時效度與預測效度。
1. 同時效度(concurrent validity)是指欲驗證之評估工具的評估結果與目前公認為黃金標準(gold standard)的效標評估結果之關聯程度,以確認評估工具是否評估到與效標工具相同之建構,以檢驗評估工具評估結果的正確性。

2. 預測效度(predictive validity)是指評估工具的測量結果可預測個案未來的健康狀態之程度。預測效度的臨床重要性包含篩檢個案、預測預後,以及擬定長期的醫療計畫與目標,皆具備重要的價值。預測效度愈高之評估工具,測量結果愈能有效預測外在效標。

()建構效度

.建構效度之定義
建構效度(construct validity)是指評估工具能評估到理論上的概念、結構或特質的程度。「建構」(construct)通常是抽象而屬假設性的概念特質,難以直接觀察獲得,換句話說,建構效度是指評估結果的分數能夠依據理論而呈現擬測量之概念、結構或特質的程度。這些抽象概念無法直接評估,需先有理論假設,再以實驗驗證,進而確認建構或修正之,這過程非單一研究能夠完成。

.建構效度之種類
建構效度的種類為收斂效度與發散效度。
1. 收斂效度(convergent validity)當欲評估之特質缺乏黃金標準的效標時,可以收斂效度驗證評估工具欲評估特質與理論上相關特質之關聯程度。收斂效度的研究設計為同時評估,資料分析方式則以相關係數驗證。

2. 發散效度(divergent validity)是驗證評估工具欲評估特質與不相關特質之不關聯程度。發散效度的研究設計為同時評估,資料分析通常則以相關係數分析。

()區辨效度

.區辨效度之定義
區辨效度(discriminative validity/known-group validity)是指評估工具之評估結果可根據其背景理論模式區辨不同屬性個案(或健康對照組)之程度(between group difference)

.區辨效度之檢驗方式
區辨效度的研究設計為同時評估,資料分析方式則多以t檢定、變異數分析(analysis of variance;ANOVA),與迴歸分析進行驗證。

第五節  反應性
. 反應性之定義
反應性(responsiveness)是指評估工具可偵測個案本身或群體欲評估的目標特質些微變化之能力。Wilkin, Hallam Doggett 學者認為反應性是判斷評估工具良莠的重要指標之一,更是療效驗證研究成功與否的重要基礎。
由於反應性是指評估工具可量測到在治療一段時間後的改變,因此研究設計多為追蹤研究並且重複評估,資料分析則以效應值(effect size; ES)為主。7-4彙整評估工具反應性的定義、統計指標、判讀標準,和臨床涵義與價值。


. 反應性之統計指標與解釋
反應性指標主要有以下三種:
1. 配對t 檢定t 值大於1.96,代表介入前測與後測具顯著差異,具反應性。
2. 效應值ES 大於0.2,即具有反應性;ES 愈大,反應性愈好。ES = 0.2 代表小的效應;ES0.5:中度效應;ES 0.8:高度效應。
3. 標準化反應平均值(standardized response mean; SRM)標準同ES50

第六節  最小重要差異值
. 最小重要差異值之定義
臨床重要差異值(clinical important difference; CID)是指反應個案功能改變或臨床病程的分數變化值,其中最小的CID 即為最小臨床重要差異值(minimal clinical important difference; MCID)
一般臨床試驗所得資料,常以「統計顯著」或「p值」判定療效是否顯著。然而,研究數值即使達到統計顯著差異,該數值不一定具有「臨床意義或重要性」。p 值易受樣本大小影響,意即只要樣本數夠大,p值即可低於一般研究設定的統計顯著標準。

. 最小重要差異值之意義與解釋
MID 為個案主觀感受到有意義且重要的最小分數改變量MID 是一閾值以判定個案分數改變是否重要,可協助臨床試驗或療效研究結果的解釋。因此個案在評估工具分數上的改變量必須超過MID 才具備臨床重要意義。
實證醫學中,MID 亦可透過「必須治療數」(number needed to treat; NNT),協助解釋臨床試驗所得之治療效果,以利解讀療效。
7-5彙整評估工具之最小重要差異值的定義、統計指標、判讀標準,及其臨床涵義與價值。

第七節  結語
評估是臨床介入的基石,掌握病人問題後,進而制訂治療計畫並掌握療效。然而迄今(2010 年)國內成人生理疾病職能治療所使用之評估工具,主要問題包含:無法精準、快速且全面性掌握個案的問題,導致臨床評估效能低落。因此有待研究人員改善目前評估工具之效能,解決當今評估之難題,以期精準快速且全面性掌握個案的問題。若能提升臨床評估效能,系統化且常規地評估個案的全人問題,可進一步提昇臨床治療水準。

沒有留言:

張貼留言