第一節(jié) 發(fā)病水平的測定
腫瘤預(yù)防的基礎(chǔ)工程就是要了解腫瘤的發(fā)病或死亡水平,這就需要有測定腫瘤發(fā)病或死亡水平的方法。因為只有準(zhǔn)確可靠的測定方法才能準(zhǔn)確識別促進(jìn)或抑制腫瘤發(fā)生的因素。從統(tǒng)計學(xué)角度考慮,需要有一個測定指標(biāo)能作為一個個體發(fā)生腫瘤概率的無偏估計值。目前很多地方都建立了腫瘤發(fā)病或死亡報告制度,醫(yī)院診療登記制度和病歷,以及各種專項調(diào)查研究資料,為對腫瘤發(fā)病檢測和評價提供了的非常寶貴的資料來源。但由于資料的來源不同,所計算出的有關(guān)反映腫瘤發(fā)病水平指標(biāo)的概率意義也不相同。我們將介紹在腫瘤防治工作中常用的一些指標(biāo)的計算方法以及它們的概率意義。以腫瘤發(fā)病為例,根據(jù)資料來源和分析目的要求,介紹有關(guān)發(fā)病水平指標(biāo)的計算方法以及它們的概率意義。
1.發(fā)病頻率
設(shè)有一個固定的隊列研究人群,在研究期內(nèi)保持人數(shù)不變。用N表示期初進(jìn)入隊列的觀察總?cè)藬?shù),經(jīng)過若干年( T年)的觀察期,在觀察期內(nèi)共發(fā)生腫瘤新病例 D例。可以計算腫瘤在該人群中在 T年內(nèi)的總發(fā)病頻率為:
由于腫瘤的發(fā)病水平較低,為了閱讀方便,可以將總發(fā)病頻率用千分為分母(‰,10 -3)或用10萬為分母(10 -5)表示。
總發(fā)病頻率是一個個體在期間 T年內(nèi)發(fā)生腫瘤的概率的無偏估計值。總發(fā)病頻率的統(tǒng)計學(xué)英文名稱為frequency或relative frequency,醫(yī)學(xué)術(shù)語為incidence。
總發(fā)病頻率是一個粗估計值,或稱總發(fā)病水平,描述這一固定隊列人群在整個觀察期內(nèi)的發(fā)病水平,或估計該隊列人群中每個個體在觀察期內(nèi)的腫瘤發(fā)生危險度。
由于腫瘤發(fā)病與年齡的關(guān)系很大。為了反映不同年齡組的發(fā)病水平,可以將隊列人群和發(fā)病人群按年齡段分為多個年齡組,計算不同年齡組的發(fā)病水平或年齡組發(fā)病頻率。相對于總發(fā)病水平來說,年齡組發(fā)病水平是一種條件發(fā)病水平,因為它是特指某一年齡組的發(fā)病水平。
為了反映不同時間段內(nèi)的發(fā)病水平,可以將總觀察期T分為若干個小區(qū)間,例如分為年,計算每年的發(fā)病水平。計算公式為:
也可以按其他人口學(xué)特征或職業(yè)等指標(biāo)計算分組的發(fā)病頻率。
2.發(fā)病率
由于很難將該隊列人群在整個觀察期內(nèi)保持穩(wěn)定,不易計算年發(fā)病頻率。在實際工作中,常將年發(fā)病頻率計算指標(biāo)中的期初進(jìn)入隊列的觀察總?cè)藬?shù)N改為每年年中(或年平均)觀察人數(shù) n來計算發(fā)病率,得到年發(fā)病率的計算公式為:
由于年發(fā)病率包含了時間因素,從概率角度分析,這種年發(fā)病率屬于速率型或密度型的指標(biāo),在概率論中的英文表達(dá)為density,英文的醫(yī)學(xué)術(shù)語為rate。我們在各種年報上見到的年發(fā)病率就是以年平均人口數(shù)計算的,屬于速率型指標(biāo)。
如果時間t為一連續(xù)函數(shù),用一個數(shù)學(xué)函數(shù)f(t)代表年發(fā)病率,用 F( T)表示發(fā)病概率,可將兩者的關(guān)系用積分式表達(dá)為:
式中 F(0<t≤ T)= F( T)。
在實際工作中都是將連續(xù)時間t切割為若干個時間段(例如 K個時間段)后再計算每一段內(nèi)的發(fā)病率的。如年發(fā)病率就是如此。這時不能用上面的積分公式將這種區(qū)間概率轉(zhuǎn)換為發(fā)病頻率,要用概率乘法原理來計算發(fā)病頻率。
設(shè)在第 t個年份時間段的年發(fā)病率記為 p t,則其年不發(fā)病率為1 - p t。一個個體經(jīng)歷從區(qū)間t =1直到區(qū)間 K都不發(fā)病的概率S K用下式計算為
反過來說,一個個體經(jīng)歷區(qū)間從 t =1直到 K為止的發(fā)病概率的計算公式為:
式中的t表示時間區(qū)間號,它是一個離散值。 P K是 F( T)的估計值。
3.人年發(fā)病率
在腫瘤預(yù)防試驗的隊列研究中,通常觀察的時間較長,往往持續(xù)數(shù)年、十?dāng)?shù)年、甚至數(shù)十年。在這個期間內(nèi)由于觀察對象的流動(加入或退出),各人所受的觀察時間長短不一,不便計算以人數(shù)為分母的年發(fā)病率。這時采用暴露人年為分母,用發(fā)病人數(shù)為分子計算人年發(fā)病率。每人暴露1年就是1人年。1人暴露10年或10人每人暴露1年都計算為10人年。人年發(fā)病率的計算公式為:
式中m為人年發(fā)病率, D為觀察期內(nèi)的新發(fā)病人數(shù), W為觀察總?cè)四陻?shù)。這是一個平均指標(biāo)。也可以和年發(fā)病率一樣,將觀察年份分為不同的時間段,計算每一段內(nèi)的人年發(fā)病率。例如分為 K段,在第t段內(nèi)的新病例數(shù)為 D t,觀察總?cè)四陻?shù)為 W t,則第t年的人年發(fā)病率計算為
人年發(fā)病率m t的概率含義是表示瞬時密度(instantaneous density)或瞬時速率,在假定服從指數(shù)分布條件下,它與年發(fā)病率p t的關(guān)系可表示為:
pt=1 - exp(- mt×Δ(t))
(11-8)
式中Δ(t)表示在第t個區(qū)間的時間跨度,通常定為Δ(t)=1。再用式(11-5)計算累計發(fā)病概率P K。
例11-1假設(shè)有一個臨床療效觀察的隊列研究資料,觀察終點為復(fù)發(fā)。用圖(圖11-1)表示整個隊列病例的進(jìn)出情況如下:
在1985年初有3名病人進(jìn)入觀察,第1例觀察兩年半后疾病復(fù)發(fā),他貢獻(xiàn)的人年數(shù)為2.5人年和一個復(fù)發(fā)事件,第2例貢獻(xiàn)的人年數(shù)為3.5人年和1個復(fù)發(fā)事件,第3例貢獻(xiàn)1.5人年和1個失訪事件。第4例和第5例都于1986年初加入隊列,分別貢獻(xiàn)1.5人年和4.0人年和2個失訪事件。將12例觀察對象按觀察起點重新排列的結(jié)果列于圖11-2中。
將區(qū)間跨度定為1年、即Δ(t)=1,對例11-1資料計算的每個區(qū)間的人年數(shù)、各區(qū)間人年發(fā)病率、區(qū)間(年)發(fā)病率、以及累積發(fā)病概率的計算結(jié)果列于表11-1中。
表11-1中第(6)列中的各區(qū)間人年發(fā)病率的計算如:
m1=1/11.0 =0.091,m2=1/8.5 =0.118
區(qū)間(年)發(fā)病率的計算如:
p1=1 - exp(- m1)=1 - exp(-0.091)=0.087
p2=1 - exp(- m2)=1 - exp(-0.118)=0.111
用公式(11-5)將區(qū)間(年)發(fā)病率轉(zhuǎn)換成從觀察起點開始直至區(qū)間t截止時的累積發(fā)病概率 P K的計算結(jié)果列于該表的第(7)列中。
例如:
圖11-1 日歷年
圖11-2 追蹤年數(shù)
表11-1 例11-1資料計算人年發(fā)病率
注:表中第(8)列的累積發(fā)病概率 P K中的下標(biāo) K為累計區(qū)間。如 K =2表示區(qū)間 t =1及區(qū)間 t =2的長度之和。
從這個隨訪資料得到一個病人從隨訪開始到滿4年的復(fù)發(fā)概率估計值為0.675。即在此隨訪期內(nèi)復(fù)發(fā)的可能性為67.5%。
4.年齡組人年發(fā)病率(age-specific person time rate)
在實際工作中,許多疾病的發(fā)病率與年齡關(guān)系密切。在一個持續(xù)較長時間的追蹤研究中,觀察對象的年齡隨觀察時間的延續(xù)而增大。如圖11-3所示。
圖11-3 觀察對象的年齡隨觀察時間延續(xù)而增長的情形(+:發(fā)病)
從圖11-3看出,觀察對象1在1980年初進(jìn)入觀察,當(dāng)時是30歲,追蹤至1988年中,38.5歲發(fā)病。他對30~34歲年齡組及35~39歲年齡組分別貢獻(xiàn)5人年及3.5人年,并在后一個年齡組貢獻(xiàn)一個病例。觀察對象2在1983年初30歲時進(jìn)入觀察,到1989年底觀察結(jié)束時為37歲,對30~34歲及35~39歲兩年齡組各貢獻(xiàn)5及2人年。觀察對象3在1980年初34歲進(jìn)入觀察,至44歲時觀察結(jié)束,對30~34、35~39及40~44歲3個年齡組各貢獻(xiàn)1、5及4人年。觀察對象4在1980年初38歲進(jìn)入觀察,1986年44歲時發(fā)病,對34~39歲及40~44歲兩個年齡組分別貢獻(xiàn)2及4.5人年,并在后一個年齡組貢獻(xiàn)一個病例。根據(jù)圖11-3中4名觀察對象的資料整理的分年齡組的人年數(shù)及計算的人年發(fā)病率列于表11-2中。
表11-2 按年齡組人年發(fā)病率
5.年齡組-年代人年發(fā)病率
當(dāng)觀察例數(shù)較多時,還可以按年齡-年代二維分組計算人年數(shù)及人年發(fā)病率。例如,圖11-3的資料按年齡-年代二維方式分組后計算的人年數(shù)可由表11-3表示。不難看出,每一橫行之和便是單純按年齡組計算的人年數(shù),即表11-2中的第2列。用同樣的方法計算出二維表每一格子中的發(fā)病人數(shù)后就可計算每一格子的人年發(fā)病率。如在職業(yè)病研究中由于不同年代的作業(yè)環(huán)境不同,暴露強(qiáng)度不同,發(fā)病率也不同,這時需用二維表分析方法才能更清晰地揭示出不同年代的發(fā)病率變化情況。
表11-3 按年齡-年代計算人年數(shù)與發(fā)病人數(shù)
6.人年發(fā)病率估計值的置信區(qū)間估計 (1)人年發(fā)病率估計值的方差:
通過隨機(jī)樣本計算的人年發(fā)病率m是期望人年發(fā)病率λ的估計值。m的計算式中分母為觀察人年數(shù) W,可視為一個非隨機(jī)變量;分子為新發(fā)病人數(shù) D是一個隨機(jī)變量。因此,人年發(fā)病率估計值的精確性只取決于新發(fā)病人數(shù) D。假定 D服從理論發(fā)病率為λ的Poisson分布,則新發(fā)病人數(shù)的期望值 E( D)為:
E(D)=μ=λW
根據(jù)Poisson分布的性質(zhì),新發(fā)病人數(shù) D的方差為
Var(D)=λW
(11-9)
從而得到人年發(fā)病率估計值m = D/ W的方差為
用λ的估計值 m = D/W代入上式,得到人年發(fā)病率估計值 m的方差估計值 var( m)為
從而可以構(gòu)造出人年發(fā)病率m及發(fā)病人數(shù) D的1 -α水平的置信區(qū)間。
(2)發(fā)病人數(shù)D的1 -α水平的置信區(qū)間估計:
設(shè)置發(fā)病人數(shù) D的1 -α水平的置信區(qū)間的下限為μ L、上限為μ U,在已知 D的分布條件下,可用下面的理論公式來估計發(fā)病人數(shù) D的1 -α水平的置信區(qū)間:
P(X≤D|μU)=α/2;P(X≥D| μL)=1 -α/2
式中α為Ⅰ類錯誤的概率。
按Poisson分布,在期望發(fā)病人數(shù)為μ條件下計算不同發(fā)病人數(shù)出現(xiàn)概率的計算公式為:
當(dāng) D較大(例如大于50)時,可假定m漸近服從均值為λ、方差為
的正態(tài)分布,故有
由此得到人年發(fā)病率λ的100(1 -α)%置信區(qū)間為:
通常取α=0.05,雙側(cè)標(biāo)準(zhǔn)正態(tài)分布的界值 Z 0.05/2=1.96。
例如,對100 000人口追蹤3年,共發(fā)生60例癌癥新發(fā)病例。則該人群的癌癥人年發(fā)病率為:
q =60/(100 000×3)=20.0/100 000
即每100 000觀察人年發(fā)生20例新病例。m的估計方差
由此得到人年發(fā)病率m的100(1 -0.05)%置信區(qū)間為:
其95%置信區(qū)間在(14.94/100 000,25.06/100 000)之間。相當(dāng)于新發(fā)病人數(shù)在44.82~75.18之間。用Poisson分布計算出新發(fā)病人數(shù)的精確95%置信區(qū)間在45.78~77.23之間(表11-4)。兩種估計方法的差距很小。但當(dāng)觀察病例數(shù)較少時,兩者間的差距較大。故當(dāng)觀察病例數(shù)小于50時,建議用Poisson分布精確95%置信區(qū)間。