第二節(jié) 篩檢方法的準確性評價
篩檢方法準確性(accuracy)包含三方面的內(nèi)容:真實性(validity)、信度(reliability)和預測概率(predict value)。真實性也稱為效度,是指篩查方法檢測結(jié)果與確診方法診斷結(jié)果一致的程度。信度也稱為精密度或可重復性,反映的是篩查方法結(jié)果重復測量的穩(wěn)定程度。預測值是指應(yīng)用篩查結(jié)果來估計受檢者患病與不患病可能性的指標,是反映篩查效率的指標。這三方面的評價內(nèi)容考查的是篩檢方法的不同方面,設(shè)計思路也有所不同,如果真實性評價采用單純病例對照設(shè)計,則還需要分別設(shè)計信度評價的研究和根據(jù)現(xiàn)患率估計陽性或陰性預測值;但如果用采用橫斷面或前瞻隊列設(shè)計,三個方面評價可在同一個隊列中實施調(diào)查,從而節(jié)約研究資源。
一、真實性評價
1.研究設(shè)計
腫瘤篩檢方法真實性評價采用的是病例-非病例比較研究方法,基本原理是通過計算篩檢方法在病例組中判斷為陽性的比例,和在非病例組中判斷為陰性的比例,來判斷篩查方法與疾病真實情況一致的情況。本章將重點講解腫瘤篩查方法真實性評價的設(shè)計及實施中應(yīng)注意的問題。
篩檢方法-真實性評價的研究設(shè)計方法有單純病例對照、橫斷面和短期前瞻隊列法。
單純病例-對照法是在臨床病例中分別收集病例和非病例作為研究對象的方法。這種方法可能存在難以控制的偏倚,首先,病例和非病例并非同一源人群的隨機樣本,臨床病例可能比人群來源的病例分期更晚,病情更嚴重;其次,臨床病例和非病例可能由于存在篩查方法或檢查時機不同,而造成系統(tǒng)誤差。例如,美國、西歐等國家用前列腺蛋白抗體(PSA)篩查前列腺癌,經(jīng)過20年的隨訪研究,并未發(fā)現(xiàn)該篩查方案能顯著降低人群前列腺癌死亡率。原因之一是在最初評價PSA這種標志物的準確性時,病例組的血清樣本是保存多年的樣品,對照血樣是新近采集的血樣,而PSA在血清中的濃度是隨著保存時間延長而增加的,因此,單純病例-對照的研究設(shè)計使得PSA方法的準確性被高估了。
橫斷面法或短期篩查隊列法:橫斷面法是隨機選擇一個對目標人群有代表性的樣本人群。研究者對每個對象無差別地用“金標準”方法和篩查方法進行檢查,直至收集到足夠的病例組人數(shù),再與非病人群(抽樣或全部)組成病例-對照組。如果研究不能對所有研究對象進行病理檢查,則“金標準”可以是準確性較高的臨床診斷方法,通過對研究人群進行多次測量,盡量減少誤診和漏診,該設(shè)計相當于短時間的前瞻性隊列研究。橫斷面法或短期篩查隊列法能較好地控制單純病例對照法的偏倚,但由于人群中腫瘤的現(xiàn)患率通常不高,采用這種方法進行研究時可能需要建立較大的人群樣本,往往在一個地區(qū)難以實現(xiàn),因此多采用多中心的研究設(shè)計,需要消耗較多的人力物力資源,實施較為困難。
2.研究設(shè)計和實施的基本要求
(1)確定篩查的目標人群:一般針對有患癌高風險的人群。
(2)確定判斷病例和非病例的確診(“金標準”)方法:確診腫瘤最佳的“金標準”是病理學診斷結(jié)果。但如果不能對所有篩查對象進行病理學診斷,一般采用準確性較高的影像學診斷(如CT、內(nèi)鏡)在一段時間內(nèi)連續(xù)檢查的方法作為“金標準”,隨訪期間內(nèi)發(fā)現(xiàn)的病例再經(jīng)病理診斷確診。值得注意的是,此時隨訪的目的是發(fā)現(xiàn)漏診的病例,因此隨訪間隔期不宜過長(數(shù)月),總的隨訪期一般為1年,隨訪期內(nèi)發(fā)現(xiàn)的全部確診病例構(gòu)成病例組。采用該類型的“金標準”進行病例組和對照組劃分時,要注意由于漏診所造成的錯分偏倚。
(3)確定病例和非病例的納入和排除標準:篩查的目的是發(fā)現(xiàn)臨床前期的患者,采用單純病例對照設(shè)計時,病例選擇時應(yīng)注意盡量選擇早期病癥狀輕微的病例,同時應(yīng)保證選擇的研究對象對目標人群的代表性。
(4)確定篩查方法的結(jié)局指標:一般需要有明確的、有明顯區(qū)分度的陽性和陰性判斷標準;對連續(xù)性測量的結(jié)局(如癌相關(guān)蛋白、代謝產(chǎn)物),一般采用ROC曲線法確定截斷值,原則是取陽性似然比較大、陰性似然比較小的點所對應(yīng)的值作為截斷值(cut-off value)。此外,還可以通過比較ROC曲線下面積,對多個指標(連續(xù)性變量)的總體效度進行評價。ROC曲線是在連續(xù)變化的截斷值下,計算所得的連續(xù)的靈敏度和1-特異度值的變化線圖,ROC曲線下面積(area under the curve,AUC)越大,方法的綜合真實性越高,如圖14-4,方法Ⅱ的AUC大于方法Ⅰ,則方法Ⅱ的綜合效度優(yōu)于方法I(圖14-4)。
圖14-4 連續(xù)性測量指標的ROC診斷曲線
(5)保證足夠的樣本量:簡言之,通過參數(shù)顯著性水平α,容許誤差δ,靈敏度及特異度的估計值計算病例組和非病例組的樣本量。當靈敏度和特異度均接近50%時,樣本量估計采用公式14-1;當靈敏度或特異度小于20%或大于80%時,樣本量估計采用公式14-2。Z α是正態(tài)分布中尾部累積概率為α/2時的Z值(一般用可用絕對值),一般α取0.05或0.01,Z α分別為1.96和2.58;δ為容許誤差,通常取0.05~0.10,p為待評價方法的靈敏度或特異度。靈敏度用來估計病例組樣本量,特異度用來估計非病例組樣本量。
如果是采用橫斷面或短期前瞻隊列的設(shè)計方法,要滿足收集足夠的病例人數(shù),還需要根據(jù)篩查腫瘤的現(xiàn)患率或發(fā)病率來反算隊列的樣本量。一般來說,篩查隊列的非病例數(shù)都遠大于樣本量估計的對照組人數(shù),故篩查隊列的樣本只需按病例組人數(shù)來反算總樣本量。假設(shè)肝硬化病人的肝癌發(fā)病率為5人/100人年,用甲胎蛋白(AFP)在肝硬化病人中篩查肝癌患者,已知病例組樣本量為100人,則研究隊列需納入2000名肝硬化患者,隨訪時間為1年。
(6)對象選擇盡量滿足隨機化原則,控制選擇偏倚。
(7)保證病例和非病例在檢查過程(如建檔、生物材料采集、檢查程序)及結(jié)果分析報告中各環(huán)節(jié)所得到的處理一致,一般采用盲法來控制相關(guān)的信息偏倚。
3.評價指標
真實性評價的指標主要包括靈敏度(sensitivity,Sen)、特異度(specificity, Spe)及陽性或陰性似然比(positive /negative likelihood ratio,+ LR/ - LR)。靈敏度是指篩查結(jié)果陽性人數(shù)占確診病例人數(shù)的比例;特異度是篩查結(jié)果陰性人數(shù)占非病例總?cè)藬?shù)的比例。陽性似然比(+ LR)是篩查結(jié)果的真陽性率與假陽性率之比;陰性似然比(- LR)是篩查結(jié)果的假陰性率與真陰性率之比。
根據(jù)定義,病例組中的篩查陽性人數(shù)為真陽性數(shù)( TP),病例組中的篩查陰性人數(shù)為假陰性數(shù)(FN),非病例(對照)組中篩查陰性人數(shù)為真陰性數(shù)(TN),非病例中篩查陽性的人數(shù)為假陽性數(shù)(FP)。則Sen = TP/(TP + FN);Spe = TN/(TN + FP),靈敏度和特異度在0~1之間變化,值越大說明篩查方法的準確性越高。+ LR = Sen/(1 - Spe),這個指標越大,試驗結(jié)果陽性時為真陽性的概率越大;- LR =(1 - Sen)/Spe,這個指標越小,試驗結(jié)果陰性時為真陰性的概率越大。
除了估計研究樣本的靈敏度、特異度等指標外,還需要估計它們的95%置信區(qū)間,計算公式見下表14-1。
二、信度評價
評價腫瘤篩查方法的信度,多評價其重測信度,即在相同的操作條件下對同一批對象(樣品)重復測量獲得相同檢測結(jié)果的穩(wěn)定程度,包括不同檢查者之間檢測結(jié)果的一致情況,以及不同時間段檢測結(jié)果的一致情況。簡言之,實施過程是從目標人群中隨機抽取一個研究樣本人群,由兩名或多名檢查者采取同樣的檢查程序?qū)ρ芯拷M人群進行檢查,再比較重復檢查結(jié)果的一致情況,檢測過程遵循盲法原則。信度評價的樣本人群可從真實性研究建立的篩查隊列人群中隨機抽樣。如果篩查結(jié)果是連續(xù)性測量指標的(如癌蛋白、代謝產(chǎn)物等),采用總體均數(shù)樣本量公式計算樣本量;如果篩查結(jié)果是分類指標的(陽性、陰性),采用總體率(陽性率)樣本量公式計算樣本量,具體請參考醫(yī)學統(tǒng)計學專著。
進行信度評價應(yīng)根據(jù)資料類型來選擇指標和分析方法,總的說來可以看作配對(定量、定性)資料的比較。連續(xù)性測量的資料可用相關(guān)系數(shù)(r)評價一致程度,一般r≥0.90,可認為該篩查方法的一致性較好。此外,也可以用配對 t檢驗(paired samples t test)分析重復測量結(jié)果的一致性,若兩組差異無統(tǒng)計學顯著性則認為重復測量的一致性較好。分類測量的資料,一般采用Kappa值來評價一致性, Kappa值計算的定義式為:(實際觀察一致率-機遇一致率)/(1-機遇一致率)。若 Kappa值≤0.4可認為一致性差;0.41≤ Kappa值≤0.74,可認為一致性中等或較高; Kappa值≥0.75則認為一致性極好。統(tǒng)計軟件SAS、SPSS、Stata等均能進行Kappa值的估計。
三、預測值估計
預測值包括陽性預測值(positive predictive value, PPV)和陰性預測值(negative predictive value, NPV)。陽性預測值是篩查陽性者中能被確診為患病的概率;陰性預測值是指篩查陰性者中能被確診為不患病的概率。
預測值要受到篩檢方法靈敏度、特異度和現(xiàn)患率的影響,簡言之,現(xiàn)患率一定時,靈敏度增加,篩查人群中假陽性人數(shù)增加,陽性預測值降低,陰性預測值升高;靈敏度、特異度一定時,現(xiàn)患率增加,陽性預測值會增加,因此在現(xiàn)患率高(高危人群)的人群中開展篩查,篩查效率較高。
預測值的估計方法有直接估計法和間接估計法兩種。直接估計法是以橫斷面或短期篩查隊列設(shè)計為基礎(chǔ)的。這兩種設(shè)計的研究人群一般被認為是目標人群的一個隨機樣本,在該人群中開展篩查,所得的陽性或陰性率本身就受到腫瘤現(xiàn)患率的影響,可根據(jù)實際的篩查數(shù)據(jù)計算預測值(公式14-3,14-4)。間接估計法是已知篩查方法的靈敏度、特異度,結(jié)合人群現(xiàn)患率對預測值進行估計的方法,又稱為貝葉斯估計法(公式14-5,14-6)。值得注意的是,單純病例-對照設(shè)計的研究沒有考慮人群現(xiàn)患率的影響,不能直接計算預測值。