第三節 腫瘤篩檢項目生物學效果的評價
一、概 述
(一)篩查項目評價的發展
疾病篩查的雛形是20世紀20年代美國醫學聯合會(American Medical Association)推廣的面向人群的定期體檢,之后美國癌癥控制協會(American Society of Cancer Control),現名美國抗癌協會(American Cancer Society,ACS)又發起并推廣了巴氏涂片法篩查宮頸癌,乳腺自檢篩查乳腺癌的衛生運動。這些方法推廣前沒有經過嚴格的效果評價,人們往往出于防病的熱情直覺地認為這些方法應該有效,但經過數十年的觀察,這些方法最終被證明并沒有改變腫瘤的歸因死亡率。腫瘤流行病學家認識到,篩查項目只有經過設計嚴謹的、長時間的研究證明有效后才能推廣。
自20世紀80年代以來,流行病學研究方法在評價乳腺癌、宮頸癌、大腸癌、前列腺癌、肺癌等篩查項目的效果上得以廣泛應用,研究者們對研究設計、偏倚、觀察指標的確定以及證據質量評價等問題有了越來越深入的認識,形成了系統的篩查項目效果評估框架。本節也將重點講述流行病學研究方法在篩查效果評價方面的注意事項。
(二)腫瘤篩查項目設計和評價的內容
篩查項目設計和效果評價是密不可分的,評價一項人群腫瘤篩查項目時,一般需要回答以下問題:①篩查應包含哪些人群?篩查年齡段是多少?②篩查方法是否能有效發現癌前病變或早期癌?篩查的間隔應該多長?③篩查能否降低腫瘤發展的中間結局和最終結局(死亡)的發生率?④早期病變后應該如何處理?篩查方法和早期治療的副作用如何?(一般采用臨床研究的證據)⑤采用不同的方法或方案篩查的效果有沒有差異,哪一方案更符合衛生經濟學的低成本高收益的原則?這些問題同時也是項目設計需要考慮的問題,本部分將重點說明設計篩查方案的基本原則。
1.確定篩查的目標人群
為合理配置衛生資源,腫瘤篩查通常采用高危人群篩查策略,既通過人群的疾病風險度估計篩選出高發病率的風險人群進行篩查,可獲得較高的收益(檢出率),也更符合低成本高效益的原則。腫瘤篩查的高危人群篩選通??紤]高發年齡段和主要危險因素暴露狀況。如根據白種人不同癌癥的自然史規律,一些西方國家建議宮頸癌篩查的起始年齡為35歲,乳腺癌篩查起始年齡為50歲,大腸癌篩查年齡為40歲;乳腺癌終生患病風險(Gail評分)≥1.67%者判定為高危人群;將具有一級親屬患有大腸癌、腸息肉病史、慢性結直腸病史者判定為大腸癌高危人群。
2.確定篩查的技術方案
運用一種篩查方法開展腫瘤篩查往往有一定的局限性。如果選擇靈敏度和特異度都較高的方法,如螺旋CT篩查肺癌,雖然能發現更多的病人且發生誤診的概率也較小,但這類方法已類似腫瘤的確診方法,費用過高,難以在人群中實施。如果選擇靈敏度較低的方法,則有可能出現較多的漏診病例,達不到癌癥早診早治的目的。此外,發病率低的疾病篩查收益(篩查發現的病例數)也較低。因此,在實際工作中,為提高腫瘤篩查的收益,通常采用多種篩查方法聯合應用的策略。
篩查方法聯合應用有兩種基本模式,一是系列法(serial method),或稱為串聯法,二是合并法(parallel method),又稱并聯法。
串聯法是有時間先后的方法組合,初篩方法判斷為陽性者,進入下一輪方法的篩檢,兩輪試驗都為陽性者進入確診環節。該方法的優點是如果篩查的目標人群基數大,可以通過初篩發現高危人群,縮小二次篩查的范圍。例如,我國“十一五”期間開展的乳腺癌篩查項目,先通過觸診發現可疑乳腺腫塊的人群,再運用鉬靶X線檢查進一步篩查有腫瘤傾向的患者。該方法也有明顯的缺點,如果初篩方法靈敏度較低,則可能出現較多的漏診病例。因此,在設計串聯篩查方案時,初篩的方法盡量選擇靈敏度高的方法,而對特異度沒有特別要求,第二輪的篩查則盡可能選擇特異度較高的方法。
并聯法是同時運用兩種方法的進行篩查,只要其中一個方法的結果陽性,則進入確診環節。該方法的優點是可以互相彌補兩種方法靈敏度不足的問題,提高篩查整體的靈敏度。如NCI在肝硬化病人中開展肝癌篩查,同時應用AFP、DCP1和AFPL1三種早診斷標志物篩查,發現聯合應用這三種標志物能明顯提高靈敏度。但在設計并聯篩查方案時,應充分考慮篩查方法的成本,否則是沒有意義的。比如,有研究者提出,為了提高亞洲女性乳腺癌的篩查發現率,應并聯使用鉬靶X線和乳腺高頻超聲的篩查方案,這有可能違背了篩查的低成本高效益的原則。
如果沒有條件開展聯合試驗篩查時,可以通過調整篩查間隔期來減少漏診的情況。靈敏度和特異度高的方法,篩查間隔可較長,而靈敏度較低的方法,篩查應更頻繁。如篩查宮頸癌的技術中,巴氏涂片的合并靈敏度(pooled-sensitivity)僅為55.4%(33.6%~77.2%),而HPV-DNA篩查的合并靈敏度達到94.6%(84.2%~100.0%),巴氏涂片陰性者3年后宮頸重度不典型增生(CIN-Ⅲ)的發病率為0.17%,而聯合HPV和巴氏涂片法均陰性者5年后的CIN-Ⅲ發病率才達到這個水平,因此美國癌癥協會2012年最新制定的宮頸癌篩查指南中提到“30~65歲的女性最好每5年接受一次宮頸涂片和HPV檢查,或每3年接受一次宮頸涂片”。
3.篩查效果觀察終點(endpoint)
腫瘤篩查的目的是在臨床前期(癌早期)發現病人,采取有效的治療措施,最終達到降低患者死亡風險的目的。因此,篩查組腫瘤歸因死亡率下降是最有說服力的指標,也是篩查效果評估的遠期終點指標。它綜合反映了篩查方法發現早期癌的能力和治療的有效性。但是,要準確地估計死亡率指標,需要嚴格的研究設計(如大人群的RCT實驗研究或隊列研究)和長時間的隨訪,需要花費大量的資源。為及時對篩查項目進行評價,還可選用其他的近期終點指標,包括:①病例發現人數或收益,如果篩查方法足夠靈敏,在篩查人群中新發現的患癌人數會增加;②腫瘤的分期發病率,篩查如果能發現癌前病變或早期癌,則癌前或早期癌發病率會上升,晚期癌的發病率會下降;③病例的生存率和生存年,篩查組一定時間的(5年或10年)生存率上升,或患者平均生存年延長也可以反映篩查的有效性。
應用近期指標評價時,需注意過度診斷偏倚、領先時間偏倚和病程偏倚的影響(參見“偏倚”部分)。值得提出的是,篩查效果的評價最終還是需要根據長期隊列隨訪的死亡率變化情況來驗證。
4.效果評價指標
腫瘤篩查的評價指標包括生物學效果評價和衛生經濟學指標。生物學直接效果指標包括粗有效性(effectiveness)和效力(efficacy)。表14-2是用RCT試驗的結果來說明粗有效率和效力的關系。粗有效性是干預組(篩查組)和對照組(未篩查組)的總的歸因死亡率之比,即MR = M O/M N。效力是評價篩查效果的校正指標,是指在開展篩查項目的地區,實際篩查人群的死亡率與未開展篩查地區可能接受篩查人群的死亡率之比,即MR *= M OA/M NA。
此外,還可比較篩查組和未篩查組的不同終點指標的差異,早診率、早期癌發生率、晚期癌發生率、生存率、生存時間。在后續的研究方法介紹時,我們將討論各類研究方法對應的效果評價指標的應用及可能存在的偏倚。
表14-2 篩查有效性與效力的關系
注: M,人群的歸因死亡率; O,提供篩查; N,未提供篩查; A,接受; R,拒絕
除了考慮干預的生物學效果外,應平衡篩查項目的成本、風險和收益三者的關系,形成最佳的決策方案。綜合成本與收益的評價即項目的衛生經濟學評價,詳見第四節。
二、生物學效果評價的研究方法
(一)隨機對照試驗(RCT)設計方法
嚴格設計的隨機對照試驗是評價篩檢項目效果的首選方法。1988年美國開展了大紐約健康保險計劃(health insurance plan of greater New York,HIP)的乳腺癌篩查項目評價,這是第一個大人群的篩查試驗研究。開展RCT要考慮以下三個基本條件:①篩檢試驗方法、后續的診斷試驗和治療方案明確;②篩查的結局變量明確,對應的抽樣單位應該是個體水平;③應該有明確的納入排除標準選擇合適的研究對象。
經典的篩查隨機對照試驗設計上要求較嚴格,包括:①所有符合納入標準的對象被隨機分配到研究組和對照組;②研究組接受周期性的篩查,而對照組則按個體常規的醫療行為處理,這類設計被稱為連續篩查設計(continuous-screen design);③兩組除了干預方式外,其他隨訪程序完全一致,并應盡力保證研究組和對照組的依從性一致;④研究結束后盲法評價結局。
為了節約研究資源,并盡可能解決更多的篩查效果評價問題,研究者們在經典模型的基礎上擴展了RCT研究設計的類型。Etzioni(1995)總結了多種擴展類型。
(1)多組篩查組設計:
可以比較多種篩查方案(不同入組年齡段,不同方法的聯合篩查等)篩查同一種腫瘤的效果。
(2)多種干預對照(all-versus-none)設計:
給予研究組針對不同腫瘤的多種篩查方法,同時評價多種腫瘤篩查方法的效果。
(3)交叉對照設計(reciprocal control design):
分別給予兩個研究組不同腫瘤的篩查,如A組開展乳腺癌篩查,而B組開展肺癌的篩查,則A、B兩組可互為兩種癌篩查方案的對照組。
(4)短期篩查后終止設計(stop-screen design):
即只在一段時間內在研究組中進行篩查,后期按常規的醫療服務程序進行隨訪,直至有足夠的篩查對象出現觀察結局。
(5)分半篩查設計(split-screen design):
該方法是終止設計的一種變化類型,研究隨訪時間較短,終點變量往往不是死亡,而是預后不良的晚期癌。具體設計是在研究組最后一次篩查結束后,在對照組中實施同樣方案的進行篩查,查出對照組中隱藏(Hidden)的病例,評價由于篩查使干預組減少了多少晚期癌的發生。
(6)延遲篩查設計(delayed screen design):
該方法是兩組在不同的年齡段開始篩查,適用于評價那些已經在年長人群中開展的成熟的篩查方案,提前篩查開始的年齡是否能有效降低人群的死亡率。
如前所述,腫瘤的人群發病率和死亡率均較低,如果以死亡為觀察結局,隨機對照研究往往需要龐大的樣本量和較長的隨訪期,此外,對照組缺乏有效的干預也有悖倫理學上的公平原則。因此,盡管隨機對照試驗是最理想的研究方法,但它的使用仍是有限的,通常應用在新的篩查方法的近期有效性的評價上,如癌前病變的發現率、癌的發病率或晚期癌的發生率。在已廣泛開展了人群篩查項目的地區,可采用觀察性研究的方法來補充篩查長期效果的證據。
(二)觀察性研究
觀察性研究通常是在已開展篩查項目的特定人群中進行的。開展這類研究的前提條件是,篩查項目已經在某些地區廣泛應用,并且在這些地區全人群健康檔案齊全,有連續多年的、完整準確的篩查和疾病登記信息。
1.隊列研究
隊列研究方法已經廣泛地應用在宮頸癌、乳腺癌、大腸癌篩查方案的遠期效果評價上。這些腫瘤篩查項目自20世紀70年代以來,基本已經覆蓋了歐洲、北美地區的所有適齡人群,并已有20年以上的人群隨訪數據。研究設計通常采用回顧性隊列研究,通過比較既往參與篩查人群和不接受篩查人群的隨訪一段時間后的歸因死亡率、生存率的差異來說明篩查項目的效果。效力的估計指標為兩組對象的歸因死亡危險度比(relative risk, RR),即 RR = M OA/ M OR。
從表14-2可以看出,只有當未提供篩查但有篩查意愿的人群的歸因死亡率( M NA)等于提供了篩查但不接受篩查的人群的歸因死亡率 M OR時,隊列研究的歸因死亡危險度( RR)才是隨機對照試驗的效力(efficacy)的無偏估計。但實際上,這種假設往往是很難成立的,觀察性研究的效力計算往往要受到自我選擇偏倚(self-selection bias)的影響。自我選擇偏倚的影響有兩方面,一是選擇參加篩檢的對象可能具有更高的患癌風險(如遺傳背景、疾病史),則篩查的效力可能被低估;二是選擇篩查的人群具有更好的保健知識和健康行為,除篩查疾病外的其他疾病死亡風險均低于對照組,則篩查項目的效力可能被高估。為了正確評價篩查的效力,應該對觀察性研究的兩組間的基本人口學、疾病風險特征進行可比性分析,并對除篩查疾病外的其他疾病死亡風險進行評價,以此來評價自我選擇偏倚的影響程度。
2.病例對照研究
加拿大科學家Clarke和Anderson(1979)最早應用病例對照研究方法評價細胞學方法篩查宮頸癌的效力(efficacy),20世紀90年代至今,該方法被廣泛應用到評價乳腺癌、宮頸癌、大腸癌及肺癌的篩查項目中。它的基本原理是,篩查項目理論上能夠降低癌死亡率,則在同一人群中,死于癌的對象中曾接受篩查的比例應低于存活者,篩查效力即死亡病例與對照組參與篩查的優勢比(odds ratio, OR)。嚴格設計病例對照研究所得的優勢比與隊列研究估計死亡歸因危險度非常接近,Connor等利用HIP (health insurance plan)的乳腺癌篩查資料比較了病例對照研究和隨訪隊列研究的效力指標,二者在全人群及不同篩查起始年齡段(50歲為界限)所得的危險度值(效力值)基本一致,誤差率<1%。病例對照研究相對于隊列研究具有明顯的節約時間和易于收集信息的優點,因此應用更為廣泛。
病例對照研究設計的關鍵是選擇合理的病例組和對照組。病例是在實施了篩查項目的地區人群的所有死亡病例的隨機樣本;對照是同一源人群(包括所研究的癌的患者)的存活者的隨機樣本。篩查評價的病例對照研究一般采用匹配設計,匹配的因素一般包括年齡和出生地。
由于對照大多數是未查出癌的對象,因此他們參與篩查的行為隨時間因素(年齡和開展篩查的時間)的變化較病例組更突出,從而可能導致時間相關的偏倚 [15]。
目標人群參與腫瘤篩查的行為如果受年齡因素的影響,則該行為被稱為年齡相關篩查利用(age-related screening utilization)。一般說來,參與篩查率隨年齡增長而增加,如果對照低年齡段構成比高,則對照組的實際參與篩查率低于目標人群的篩查率,則篩查的效力則可能被低估。
目標人群中參與篩查的累積率呈逐年增加的趨勢,即有篩查利用的時間累積趨勢(time trends in screening utilization)。假設每年的新篩查率不變,則往年參加篩查但結果陰性人數將累積到第二年,如果按篩查年份分層抽取對照組,則對照組篩查率就高于實際人群的篩查率,篩查效力則可能被高估。
控制時間因素的偏倚可采用限制的方法,病例和對照的對象應限定在篩查率穩定的年齡段或年代。
(三)生態學研究
生態學研究方法可用于篩查項目推廣多年后的效果評價。常用的設計有①開展篩查項目地區與未開展地區腫瘤死亡率的比較;②同一地區篩查前后腫瘤發病率和死亡率變化的趨勢。③二者相結合的綜合研究。從研究設計上,生態學相對隨機對照試驗、隊列研究和病例對照研究都容易實施,它只需要收集地區或時間段上人群的發病率和死亡率的數據,但是對生態學研究存在較多無法控制的混雜因素(生態學謬誤)的影響,因此它的結果在評價篩查方案的有效性方面是有限的。
開展生態學研究應注意以下問題:①地區間或不同時間段與腫瘤預后相關的因素,如人群的發病率、醫療水平、衛生投入、經濟狀況等應盡量可比;②開展篩查的地區,篩查應該在較短時間內覆蓋所有的風險人群;③研究地區應在篩查前、后分別有足夠長時間(10年以上)的人群發病率、死亡率監測數據。
三、腫瘤篩查效果研究的偏倚
(一)領先時間偏倚(lead-time bias)
領先時間是指無癥狀時由篩查發現腫瘤的時點至出現癥狀后主動就診診斷的時點之間的時間間隔。換言之,該間隔是疾病的自然病程階段,如果篩查活動只提前了發現疾病的時點,而不給予有效的處理,篩查人群比不篩查人群帶癌生存時間延長的部分。以生命年為觀察指標的研究應扣除領先時間,否則會產生領先時間偏倚,從而高估了篩查效果。例如,“梅奧肺疾病項目”(Mayo lung project,MLP)在1971—1983年期間開展了用X線結合痰細胞學在9211名吸煙者中篩查肺癌的RCT試驗,干預了6年,每4個月篩查一次,隨訪截止期為1996年。在這個大人群的RCT研究中,以生存時間為效果指標時,干預組的中位生存時間為16年,而對照組為5年,患者5年生存率篩查組較對照組高近一倍(35%比19%)。但是,用死亡率為指標評價時,發現篩查組20年的累計死亡率反而略高于對照組(0.44%比0.39%)。由此可見,用生存率或生存時間作為觀察結局比用死亡率作為結局更傾向提出篩查有效的結論,但其中不可忽視領先時間的影響。此外,領先時間偏倚也說明用5年生存率來評價篩查的效果顯然是不夠的。
(二)病程偏倚(length bias)
進展迅速的癌從無癥狀至出現明顯癥狀的窗口期很短,在人群中開展篩查能發現的這類病人的概率很小;進展緩慢的癌則窗口期長,篩查能檢出這類病人的概率較大。因此,如果篩查出的病例中腫瘤進展緩慢的患者占較大比例時,則篩查組生存概率或生存時間長于對照組,可能歸因于篩查組病人本身病程較長的緣故,此時,篩查的效果可能被高估了。這種偏倚被稱為病程長短偏倚。
(三)志愿者偏倚(health volunteer bias)
開展篩查效果評價的研究通常采用觀察性的研究方法,則研究對象參加或不參加篩查主要取決于自身的意愿。參加篩查者與不參加者相比可能有更高的受教育程度、個人經濟狀況更好,更關注自身的健康,不良行為(吸煙、飲酒、體力活動缺乏等)習慣的發生率較低,因此參加篩查人群的惡性腫瘤發病或死亡基礎風險可能低于總人群和不參加篩查者。流行病學家稱這種偏倚為“健康志愿者偏倚”,它可能會高估篩查的效果。志愿者偏倚在觀察性研究方法中是很難控制的,一般可通過對參加篩查組和不參加組的其他原因死亡率(扣除篩查腫瘤的死亡率)的比較來評價是否存在這類偏倚及影響程度。如果篩查組的其他原因死亡率明顯低于不篩查組,則在評價篩查效果時應注意分析志愿者偏倚的影響。
(四)過度診斷(over diagnosis)引起的偏倚
如果篩查出的癌前病變正處在良性階段,沒有惡性增長的潛能,甚至可能發生逆轉,恢復至正常狀態,如宮頸癌的CIN1階段;或者患者惡性腫瘤進展緩慢,如前列腺癌,患者可能在出現明顯癥狀前由于其他競爭性疾病死亡(又稱為“惰性病例”),因此,盡管篩查能觀察到癌前病變或早期癌的發病率升高,但并不能觀察到人群的晚期癌發生率或癌的歸因死亡率下降。反而由于發現過多的早期病例而增加了治療的負擔,這種現象稱為過度診斷。例如,在日本、德國和加拿大等國,從20世紀80年代起采用尿檢VMA酸的方法篩查兒童成神經細胞瘤,在開展項目期間,早期成神經細胞瘤的發病率迅速攀升,但是晚期癌的發生率沒有變化,項目開展20年來也沒有發現總人群該腫瘤的死亡率有下降的趨勢,鑒于該項目沒有明確的生物學效果,2003年日本終止了這項篩查項目。
四、腫瘤篩檢的傷害和倫理學問題
(一)傷害
篩查引起的傷害包括兩個方面,一方面是篩查方法本身的傷害,比如較頻繁使用胸部X線篩查肺癌、鉬靶X線篩查乳腺癌,會造成超額的射線暴露風險,乙狀結腸鏡檢可能造成腸腔損傷出血;另一方面,篩查的假陽性者可能面臨過度診斷的問題,后果是假陽性者必須接受有創性確診檢查,經歷確診前的焦慮情緒困擾,另外,如果早期診斷的病例是所謂的“惰性病例”,隨之而來的早期治療措施可能會損傷病人的健康。對醫療資源來說,過多的假陽性可能造成資源的浪費。Lafata等測算了在前列腺癌、肺癌、大腸癌和卵巢癌篩查項目(PLCO)中由于假陽性結果帶來的1年內診斷和治療費用,女性每人為$ 1024/年,男性每人為$ 1171/年。
迷性
繁華
有生之年狹路相逢
知青前妻重生了
神醫佳婿李陽周雪
原來我是絕世高人葉青云
重生抗戰之豫西北傳奇
我在黃泉有座房
陰美人
重生國民男神:九少,請指教! (二)倫理學問題
篩查研究作為一種醫學實踐對受試者的影響可能存在不確定性,因此必須遵循“赫爾辛基宣言”的醫學倫理學準則,必須具備尊重個人意愿、有益無害、公正等一般倫理學原則。首先,開展篩查研究前應提交倫理委員會審查及獲得受試者的知情同意,充分告知篩查過程中可能的有創檢查、潛在的危害及處理的措施等。其次,應保護受試者的生命、健康、尊嚴、完整性、自我決定權和隱私,受試者有權隨時退出,研究者應對受試者的個人信息保密。再次,篩查應該是有益無害或收益遠大于危害的,對篩查試驗陽性者,有進一步的診斷、治療方法,不會給他們帶來不必要的心理負擔,也不會對健康產生負面影響。最后,篩查研究的對照組應得到公平的處理,如果證明篩查措施有效,應優先在對照人群實施。