xxx毛片免费看-欧美 日韩 人妻 高清 中文-一本色综合亚洲精品88-加勒比无码一二三区播放-亚洲欧美精品av在线观看-在线观看 国产精品一区-日本三级日产三级国产三级-暴躁老外玩minecraft-日韩欧美亚洲一区二区四季

第五節 生存分析

第五節 生存分析

生存的直接含意是與死亡結局相對立的結局。但這里“生存”是一個廣義的概念,泛指二分類結局中的一種。如可以把發病/不發病這一二分類結局中的不發病看成為“生存”,發病看成為“死亡”。把疾病復發/緩解這一二分類結局中的緩解看成為“生存”,復發看成為“死亡”等。在生存分析中同時考慮兩個反應變量:即生存時間的長短和生存狀態。以臨床治療效果來說,在同一時間長度情況下,生存概率大者治療效果為優。
率這個詞的中文含義既包含概率的意思,也包含速率的意思。但在概率論中,概率、速率是相關而不相同的兩個概念。習慣上人們所稱謂的生存率,實際上是生存概率,它與前面介紹的以人年為分母的發病率在數學性質上是不相同的。為避免混淆,在本文中一律用生存概率這一名詞,而不用通俗的生存率。
在生存研究中經常有觀察對象中途退出研究的現象,即該觀察對象在尚未到達觀察終點即“死亡”前就終止了觀察。對于這類失訪的觀察對象所提供的時間信息是不完全的信息,因為其未到達研究終點。在統計學上稱這類信息為“截尾”數據或“刪失”數據(censored data)。如何利用好這類“截尾”數據也是生存分析中所要考慮的問題。
為了便于分析,通常假定截尾為無信息截尾(noninformative censoring)。也就是說,在整個研究期間,個體的截尾原因應與事件的發生無關,不能提供任何與模型參數相關的信息。遺憾的是,在大量的癌癥患者生存研究中,無信息截尾通常是不存在的。例如,在實際研究中,截尾的發生往往與腫瘤藥物的副作用、患者本身的身體狀況等密切相關。因此,需要對是否存在信息截尾進行評估。然而,信息截尾的存在及其對生存分析的影響等評估相當困難。
在各類截尾情形中,失訪是最有可能與事件發生存在著關聯性的截尾情形。這往往可以從專業的角度進行定性判斷。一種較為客觀實用的評估信息截尾是否存在的方法是,考察整個研究期間的失訪比例(loss to follow-up)。如果失訪比例較大,或者,對每一類別分別作Kaplan-Meier生存曲線圖,觀察每個時段失訪比例。如果存在較大差異,那么,就有理由認為失訪是信息截尾的。另一種較為簡單實用的方法是,通過事后的截尾敏感性分析,如,最佳-最差情形法(best case-worst case scenario),來評估截尾對生存時間的影響大小。例如,第一次分析對截尾個體按照無信息截尾進行處理,第二次分析直接將截尾個體的截尾時間當作其生存時間進行處理,比較這兩次分析的結果,如若存在著較大差異,就可以認為截尾是有信息的。這種方法對于截尾較少的情形較為有效。需要注意的是,在這種情形下,信息截尾對生存分析的影響通常也較小。對于存在著較大截尾比例的研究,往往認為該研究的質量不高,其結果的可靠性與意義并不大。因此,在實際研究中,如何確保截尾盡可能少是癌癥患者生存研究的關鍵性問題。

1. Kaplan-Meier乘積極限法[Kaplan-Meier method,product-limit(P-L)method]

當資料不含有截尾觀察數據時,生存概率的估計方法十分簡單,即生存人數除以期初觀察人數。但當資料含有截尾觀察數據時,必須將截尾數據所提供的部分信息考慮進來。Kaplan-Meier法是Kaplan和Meier于1958年首先提出,根據概率論中關于總概率是條件概率連乘積的原理來計算生存概率,是生存概率的一種非參數估計方法。適用于觀察例數較少的情況。
設有n個觀察時間t i,i =1,…,n,第i個觀察若為完整時間則記為t i,若為截尾時間則記為 t1≤t2≤…≤…≤tm

如果

則從t 0開始一直生存到時間t k的生存概率P(t k)的計算公式為:

又可將 P(t k)看成為生存時間等于或大于t k的概率。
生存率的標準誤計算公式為:

生存概率 P(t k)的95%置信區間的計算公式為:

總生存概率P(tk)±1.96×se[P(tk)]

(11-65)

例11-14 48例急性淋巴細胞性白血病病人從治療開始至死亡的時間(月)如下:
1,1,1,2,2,2,2,3,3,3,3,3,3,5,5,5,5,4,5,5,7,7,7,7,7,7,7,7,8,8,8,8,9,10,10,13 +,13,13,13,14,15,18,18,20,20,21 +,21,23
注:有+號者為截尾時間
其生存概率的計算過程列于表11-27中。
表11-27 48例急性淋巴細胞性白血病病人生存概率的Kaplan-Meier法估計結果
用Kaplan-Meier法估計的總生存概率是一種階梯形概率,用估計的總生存概率所繪制的圖形見圖11-13。
圖11-13 48例急性淋巴細胞性白血病病人生存概率的階梯曲線
從圖中可見,在10個月之前的曲線下降的坡度較陡,反映死亡風險較大,10個月之后的曲線下降的坡度較平坦,反映死亡風險較小。50%生存概率在開始治療后5~7個月之間。

2.人壽保險法(actuarial method)

人壽保險法又稱精算法,也是一種非參數生存概率估計方法,適用于觀察例數較多的情況。
用人壽保險法計算生存概率的第一步是將觀察人群按生存時間長短分為數個相等的時間區間。其次是計數在每一個區間開始時的觀察人數和在區間內的死亡人數;第三步是計算每一個區間內的條件死亡概率和條件生存概率。最后按概率乘法原理計算總生存概率。
例11-15在5年期間內共隨訪了411例結腸癌病例,最長觀察期為5年。為計算這一組病人的不同時間的生存概率,將總觀察時間按每6個月1段共分為10個等長區間。記數每一區間開始時的病人數 n i、在區間內的死亡數 d i和截尾數c i。見表11-28中的第1 至4列。
表11-28 411例結腸癌病例按人壽保險法計算生存概率
續表
表中各列的說明:
第2列,區間(月)(t i- t i +1):t i是月初起點,t i +1是月末終點;
第3列,期初人數n i:n i +1= n i- d i- c i
第4列,期內死亡人數 d i:在區間( t i- t i +1)內死于結腸癌的病例數;
第5列,期內失訪人數c i:由于遷居或死于其他原因等未觀察到其死于結腸癌的病例數;
第6列,校正期初人數N i:N i= n i- c i/2,即假定每名失訪者在區間中點失訪,在此區間內提供了半個區間的的觀察時間;
第7列,條件死亡概率q i:q i= d i/N i,表示在區間起點t i生存的一個人死于區間( t i- t i + 1)的概率;
第8列,條件生存概率s i:s i= 1 - q i,表示在區間起點t i-生存的一個人能活過區間( t i- t i +1)的概率;
第9列,生存概率 P i:生存概率 ,表示從觀察起點開始能一直活過區間i的概率。即通稱的生存率。
從生存概率 P i分析,前5年的生存概率下降很快,從0.647下降到0.392;后5年的生存概率比較穩定,從0.361下降到0.319。存活5年的概率為0.392。50%存活時間為:

3. Cox比例風險回歸

隨著現代醫學的不斷發展,有關腫瘤的隨訪研究越來越多。當前腫瘤尚缺少根治方法,這就使得怎樣延長病人生存時間和提高生存質量的研究,顯得越來越重要。近年來,怎樣從眾多的風險因素中分辨出對疾病的發生、發展有較大影響的重要因素,已成為腫瘤研究的一個熱點。大量醫學實例已經表明,腫瘤患者的生存時間與個體的性別、年齡、肝功能、腎功能等有著密切關系。不同的個體具有不同的屬性與指標,因而,導致各個個體之間存在著較大的差異。如果已知在某一時刻、某一同齡的腫瘤患者群中發生一個死亡,那么,這一死亡的可能性對這群腫瘤患者中每一個個體而言,是不一樣的。換句話說,就是在死亡面前,機會并不均等。這樣,利用前面介紹的乘積極限法和人壽保險表法來估計死亡概率等非參數生存分析統計方法,就不能滿足多因素分析的要求,必須要有新的模型來分析與研究各個個體背景因素不一致的情形下的生存狀況。癌癥患者生存資料中,反應變量為生存時間與事件結局,不是單一變量。然而,普通的多元線性回歸和logistic回歸難于分析此類資料,這是由于這兩種模型通常不能全面利用這種存在截尾的不完全數據信息,使得所建立的模型失去統計效能。
目前,生存分析領域最重要的一類分析方法就是時間到事件(time-to-event)的分析方法。其相應提出的模型也被稱之為生存模型。生存模型主要分為兩大類,即20世紀六七十年代發展起來的參數模型(parametric model)與其同期發展起來的半參數模型(semiparametric model)。生存分析中的參數模型,必須事先指定誤差項的基準分布,如指數分布,Gamma分布,Weibull分布等。與參數模型相比較,雖然半參數模型不能估計出各時點的風險率,但是,半參數模型對生存時間分布沒有任何先驗要求,并且,可以估計出各研究因素對風險率或生存時間的影響,鑒于腫瘤疾病發生、發展和死亡的復雜本質,很難確定分布的形式,因此,在腫瘤研究與應用領域中,半參數模型比參數模型更為可取,應用范圍也更為廣泛。
經典的半參數生存分析模型,主要包括兩類,即一是Cox比例風險回歸模型(proportional hazards regression model,Cox model),二是半參數加速失效時間模型(semi-parametric accelerated failure time model,AFT model)。本節先介紹Cox比例風險回歸模型,下一節介紹加速失效時間模型。
英國統計學家D. R. Cox于1972年提出了一個巧妙的、用于分析生存時間的半參數模型,即,Cox比例風險模型(Cox's proportional hazard model),現在通常稱為Cox模型。有關Cox比例風險回歸模型的研究和應用,特別是在腫瘤的預后因素分析中,已取得長足的發展。
腫瘤患者的生存時間與一些外部或內部的因素有著相當強的關聯,通常將這些因素稱為協變量。協變量可以是多維的,記為X =(x 1,x 2,…,x p)。記每個個體協變量X i= (x i1,x i2,…,x ip),以表示與第i個個體有關的p維協變量,第i個個體的生存時間分布依賴于X i。一般地,將生存分布函數記為 St | X),其密度函數記為 ft | X),風險函數記為h(t | X),以表示對協變量X的依賴關系。

(1)風險函數:

對于Cox比例風險模型而言,風險函數的理解是至關重要的。風險函數基本定義為:

式中的X表示可能對患者生存時間產生影響的各種因素,亦稱為協變量(covariate)。通常假定這些變量不隨時間的變化而變化。 t表示生存時間, htX)稱為具有協變量 X的個體在t時刻的風險函數(hazard function)。
風險函數具有三個基本特性:
1)風險函數不是概率函數,這是因為風險可能會超過1.0。這可以通過風險函數的定義直接得出。因此,風險函數不能按照概率予以解釋。另外,雖然風險函數沒有上限,但是,它不可能低于0。
2)由于風險函數本身是由條件概率函數的導數來定義的,它是一個不可觀測的理論變量,因而,只能通過所獲取的數據來估計風險函數,只能從估計的角度來予以解釋。
3)風險最好從個體的角度來予以解釋,而不能從群體的角度來理解。這是因為每個個體的風險函數是互不相同的。
風險函數 h(t,X)表示生存時間已達t時刻的個體在t時刻的瞬時風險率。它是針對個體而言的。風險函數意味著某個體在某個時間區間內,某事件的發生頻數。也就是說,風險函數是有時間單位的,它是一個率的指標。例如,按照以往月統計數據表明,某個體在某個特定時間點患上呼吸道感染的風險為0.01,這就是說,在一個月內該個體患上呼吸道感染的次數為0.01次;如果以年來統計,那么,某個個體在某個特定時間點患上呼吸道感染的風險為1.0,這就意味著,在一年內該個體患上呼吸道感染的次數為1.0次。當然,這里必須假定患上呼吸道感染的風險在一月或一年內是恒定的。如果在一年內患病次數是恒定的,那么,最好采用以年為單位的風險函數。相對而言,一年內患病次數的假定要比一月內患病次數的假定更為嚴格,這是因為患上呼吸道感染的次數往往因季節而變動。因此,在對風險函數進行解釋之前,必須對統計區間予以統一規范,并加以檢驗,而這通常從醫學的專業角度來進行事前考慮。
對于上呼吸道感染這類易患易愈,易于確診,無后效的疾病來說,基于個體的統計是易于描述與分析的。然而,對于癌癥這種罕有的、難以確診的疾病來說,基于個體的統計幾乎是無法實施的,只能假定每個體的基準風險是相似的,也就是說,如果任意兩個體基本條件一致的話,那么,他們所經歷的風險應是完全一致的。在這種假定下,可以通過基于群體的統計來估計個體的風險,這就使得風險的解釋具有群體特性(流行病學特征)。對于癌癥之類的疾病,往往通過觀察大量的隨機樣本來確定風險函數。例如,隨機抽取10 000人,觀察1年,假定未發生截尾,暴露共計10 000人年,在這一年中,共有10人發生某種特定癌癥,那么,根據風險相似的假定,風險的最優估計為10/10 000 =0.0001。
風險相似的假定比較難以理解。現在給出一個常識性例子,以幫助理解。例如,當你說“這兩輛不同的車都在以每小時80公里的時速在行駛”這句話時,其客觀實現是,作為觀察者的你,主觀地認為如果這兩輛車保持當前的行駛狀態,那么,無須考慮它們之間是否確實存在著本質上的差異,而導致某個時段這輛車快一點,另外一個時段那輛車快一點,并不影響到你觀察它們的整個行駛過程,這兩輛不同的車都應在一個小時內行駛完80公里。
條件風險是指各種外在條件會影響事件發生的風險。這也就是說,對于某個特定個體的某個特定事件發生風險是會隨著各種外在因素的變化而變化的,并非一成不變。例如,乙肝患者患肝癌的風險較大,而生活規律會降低肝癌患病的風險。大量事實表明,隨著外在條件的劇烈改變,風險的改變往往也是階梯樣的,并不是連續性的,而那些大量的只能引起風險輕微改變的外在條件,往往是會相互抵消的。因此,可以建立與常規多元線性回歸類似的統計模型,其回歸系數解釋大致同樣類似于多元線性回歸。

(2)Cox比例風險回歸模型結構:

在比例風險模型中,假設在時點 t時,個體出現觀察結局的風險大小可以分解為兩個部分。第一部分為一個基準風險函數h 0(t)(baseline hazard function),表示某類個體的共性風險,該風險量是未知的,屬于非參數部分,需要注意的是,基準風險函數h 0(t)會隨著時間的變化而變化;第二部分為第j個影響因素使得該風險量從h 0(t)增加e βjxj倍,表示某類個體的特殊性質,屬于參數部分,其值是可估計的。從而,個體在時點 t的風險量變成 h 0te βjxj。因此,如果在 p個因素同時影響生存過程的情況下,在時點t的風險量(常稱為風險比hazard rate,HR),則模型為

h(t,X)= h0(t)eβ1x1eβ2x2…eβpxp

因此,Cox比例風險模型的基本結構如下:

htX)= h0teβ1x1eβ2x2eβpxp= eβ1x1+β2x2+…+βpxp

(11-66)

將基礎風險移到等式左側,兩邊取自然對數,得,

ln(Rh(t))= ln(h(t,X)/h0(t))=β1x12x2+…+βpxp

(11-67)

式中R h(t)= h(t,X)/h 0(t)稱相對風險。上式和多元線性回歸模型非常類似,因此,Cox比例風險模型,也被稱為Cox回歸。與一般多元線性回歸不同的是,Cox比例風險模型的截距項不是恒定的,會隨著時間的變化而變化。Cox模型是目前解決多因素對生存過程影響最常用的統計分析方法,它將協變量對生存期的影響表現在風險函數的關系上,從而有效地解決了截尾數據的問題。

(3)Cox比例風險模型的基本假定:

根據Cox比例風險模型基本形式,該模型要求資料事先滿足兩個假定:一是,對數線性假定;二是,比例風險假定(assumption of proportional hazard)。

1)對數線性假定:

Cox比例風險模型假定協變量的影響為線性模型,風險比 R h(t)= h(t,X)/h 0(t)的自然對數與各影響因素呈線性關系,服從線性模型的一般規則。各風險因素對風險比的影響具有乘積性,而不是可加性。

2)Cox比例風險假定:

比例風險假定,是指假設有兩個個體,其協變量的值分別為X 和 X *,其風險比為:

該比值與基礎風險量h 0(t)無關,在時間t上為常數。也就是說,風險比是成正比例關系。上式的值被稱為具有風險因素X的個體對風險因素為X *的個體的相對危險度(relative risk,RR)或風險比(risk ratio,RR)。這種協變量效應不會隨著時間的變化而改變的假定,被稱為等比例風險假定,簡稱PH假定。這也是比例風險模型的由來。該假定暗示各組的風險曲線是成比例的,不能出現交叉的情形。對于Cox模型來說,比例風險假定是至關重要的。如若這一假定不成立,那么,Cox模型就會成為一種統計效能極差的生存分析模型。因此,需要對比例風險假定應作出檢驗與評估。

(4)參數估計:

除了對數線性假定與比例風險假定,還必須無信息截尾假定,以及,在協變量X給定后,事件發生的時間和截尾時間之間相互獨立。為此,Cox比例風險模型提供了一種新的參數估計方法,即偏似然估計(partial maximum likelihood)。通常,似然函數是基于結果變量的分布而來的,而Cox比例風險模型對結果變量(生存時間)沒有任何假定分布,所以,該模型不能像參數模型那樣建立一個完全基于結果變量分布的似然函數。相反,Cox似然函數的建立是基于事件發生的秩序,而不是事件的聯合分布。因此,Cox似然被稱為偏似然。偏似然方法基于如下假設:兩個生存時間(或事件發生時間)的間隔長度對協變量和風險比之間的關系無任何影響。也就是說,兩個連續事件的間隔長度無論是否為0,對偏似然函數不能提供任何有效信息,僅僅考慮事件發生的先后順序,故而,在Cox比例風險模型中,事件發生時間,也被稱為有序事件發生時間(ordered failure times)。由于Cox比例風險模型僅僅使用了部分變量資料,沒有估計基準風險函數,Cox的似然函數被稱為偏似然函數(partial likelihood function)。偏似然函數不是真正的似然函數,這是因為截尾和未截尾的實際生存時間沒有在偏似然函數中得到具體體現。這就使得偏似然法難以克服巨大的理論研究難題。

(5)模型參數的意義及其解釋 1)回歸系數與相對危險度:

由Cox比例風險模型的公式,可以得到:

兩邊取自然對數,可得到

因而,回歸系數β j不會隨著時間的變化而改變,保持恒定。其與風險函數h(t,X)之間有如下關系:當β j>0時,則隨著協變量x j的增大,其風險h(t,X)也相應增大,表示患者的風險越大;當β j<0時,則隨著協變量x j絕對值的增大,其風險h(t,X)也相應減小,表示患者的風險越小;當β j=0時,則隨著協變量x j的增大對其風險h(t,X)沒有影響,表示患者的風險無變化。
對于具有協變量X和X *的兩個個體,其風險比為:

該比值同樣不會隨著時間的變化而改變,它表示在任何生存時間上,二者之間的相對危險度。對某個協變量特定取值而言,在保持其他協變量取值不變的情形下,回歸系數β j可以解釋為該協變量變化一個單位,其相對危險度變化e βj。據此,可以求得各協變量的相對危險度估計值,這就使得Cox比例風險模型具有明確的流行病學意義,即,當協變量x改變一個單位時,引起的死亡風險改變倍數的自然對數值。

2)個體預后指數:

Cox比例風險模型的線性參數部分β 1x 12x 2+…+β px p與風險函數h(t,X)成正比,即,β 1x 12x 2+…+β px p越大,風險h(t,X)也相應地越大。由此Cox模型的線性參數部分反映了一個個體的預后,β 1x 12x 2+…+β px p被稱為預后指數(prognostic index,PI)。如果預后指數越大,那么,某特定患者的風險也就越大,預后越差;反之,預后指數越小,預后越好。
如果對各協變量進行標準化變換后,得到的Cox模型的線性參數部分,即為標準化的預后指數sPI。當標準化的預后指數為0時,表明某特定患者的風險達到平均風險水平;當標準化的預后指數大于0時,表示該患者的風險超過平均風險水平;當標準化的預后指數小于0時,表示該患者的風險低于平均風險水平。

(6)比例風險假定的檢驗:

由于Cox比例風險模型具有一系列優點,如,可以同時分析各種協變量對生存時間的影響,并且無須對基準風險分布進行任何假定,特別是大部分統計軟件均可容易地實現Cox比例風險模型的擬合與分析等,從而,導致Cox比例風險模型在大量研究中存在著濫用現象。需要特別強調的是,比例風險假定是Cox比例風險模型的最為根本性的假設。這就意味著,各種組合條件下的生存曲線不能交叉。只有當資料滿足比例風險假定時,Cox比例風險模型才是統計有效的。因此,對于Cox比例風險模型而言,PH假設檢驗至關重要。但是,風險函數是基于個體的,而非群體的,這就導致檢驗PH假定幾乎是不可能的。從實用的角度來說,必須首先假定風險函數是群體相似的。在此種假定下,PH假定的近似檢驗方法主要有兩大類:一類是針對每個協變量,單獨進行PH假設檢驗,另一類是針對Cox比例風險模型,進行殘差分析,其中,殘差主要有鞅殘差,偏差殘差,Schoenfeld殘差,Score殘差等。
第一類PH假設檢驗方法主要有以下三種方法:一是,如若協變量為分類變量時,可以對每一類別分別作Kaplan-Meier生存曲線圖,觀察各生存曲線間是否有交叉,若無交叉,可以認為滿足比例風險假定;二是,以生存時間t為橫軸,對數對數生存率ln(- ln (S(t))為縱軸,繪制分類協變量各個類別的生存曲線,如果這些生存曲線平行,可以認為滿足比例風險假定;三是,對于連續型協變量,可以將其與生存時間的對數構建交互作用項x jln(t),納入到Cox比例風險模型之中,如果該交互作用項無統計學意義,那么,可以認為滿足比例風險假定。
第二類PH假設檢驗方法主要有以下兩種方法:一是,以殘差為縱坐標,時間為橫坐標作殘差圖,從圖中判斷殘差是否存在著某種非隨機性模式,如若存在的,則認為不滿足PH假定;二是,直接建立殘差關于時間的回歸模型,如若回歸系數有統計學意義,則可以認為不滿足PH假定。
需要注意的是,第一類PH假設檢驗方法,是將各協變量進行分割處理,即使在各單獨的協變量下,滿足比例風險假定,也并不必然意味著在多個協變量存在著復雜關系的情形下,仍然能夠滿足比例風險假定。特別是,當各分層的觀察對象個數較少時,更是難以判斷比例風險假定是否真正成立。第一類PH假設檢驗方法的統計效能較低,目前更多地使用第二類PH假設檢驗方法。雖然第二類PH假設檢驗方法可以從Cox模型的角度進行整體考慮,但是,Cox模型殘差本身包含有過多干擾,其性質復雜,難以研究,并且,存在截尾,某些重要協變量未包含在模型中,這些因素均使得第二類方法也難以對PH假定作出較嚴格的檢驗。
當比例風險假定不能滿足時,主要采用以下三類方法予以處理。一是,將不成比例關系的協變量作為分層變量,然后,再利用其他協變量構建Cox比例風險模型進行分析;二是,采用參數模型替代Cox比例風險模型;三是,采用無須比例風險假定的其他半參數模型,如,半參數加速失效時間模型,半參數轉換模型等,對資料予以分析。需要說明的是,第一類替代方法是對于各協變量存在復雜關系的情形并不適用,尤其是,各分層的觀察對象個數較少時,所建立的Cox比例風險模型并不可靠;第二類替代方法,則需要對生存時間進行事先分布假定,喪失了半參數模型的優勢;第三類替代方法,既無須進行分布假定,也無須比例風險假定,是較好的Cox比例風險模型的替代方案,特別是,半參數加速失效時間模型,得到研究者與實用者的越來越廣泛關注。
例11-16為了解影響乳腺癌患者術后生存狀態的因素,對32名手術后的乳腺癌患者進行了隨訪。其收集的影響因素包括遠期生活質量評分(KPS),從確診到入組的時間(Duration),年齡(Age,歲),是否家庭護理(Nurse,否=0,是=1),治療方法(Therapy,化學治療=0,生物制劑治療=1),結果變量為術后生存時間(Time,月)以及隨訪結局(Status,截尾=0,未截尾=1),數據列于表11-29試對此資料予以分析。
表11-29 32名乳腺癌患者手術后生存資料
續表
在本例中,采用SAS統計軟件的PHREG過程擬合Cox比例風險模型,由于在大量研究中,使用的統計方法為Cox比例風險模型,因而,為了保證研究之間的可比性,本例先使用Cox比例風險模型予以分析,再根據殘差分析結果,利用半參數加速失效時間模型對本資料進行分析(見下節)。
第一步,對截尾進行分析。由于本實例中,截尾僅有2例,占全部觀察個體的6.25%。截尾比例較小,可以直接作生存分析。
第二步,建立Cox比例風險模型。對每個影響因素單獨進行單因素Cox回歸分析,得到表11-30。由下表可見,在α= 0.05水準上,有統計學意義的因素僅為遠期生活質量評分。
表11-30 32名乳腺癌患者術后生存資料單因素Cox回歸分析結果
因此,無須對該資料進行多因素Cox回歸分析,僅將KPS納入Cox回歸模型之中。由此,可以認為對乳腺癌患者死亡風險有影響的因素是遠期生活質量評分。從回歸系數的符號和相對危險度的大小來看,該因素是保護性因素。乳腺癌患者KPS每增加10分,術后死亡風險將下降至0.8088倍,即減少19.12%。此研究表明遠期生活質量評分越高,其預后更佳。
本例Cox比例風險模型表達式為:

h(t | X)= h0(t)e-0.02122KPS

表達式右側指數部分取值越大,則風險函數越大,預后相對越差。本例預后指數 PI = -0.02122KPS。可按適當的預后指數分位將觀察個體分成低危組、中危組、高危組。對各組制定更為合理的個體化治療與康復方案,正確指導乳腺癌患者的治療,以降低其長期死亡風險。
第三步,Cox回歸殘差分析。相對于其他殘差圖而言,Schoenfeld殘差圖的效能更高。理論上,Schoenfeld殘差的期望為0,且近似不相關。PH假定下,Schoenfeld殘差散點圖應圍繞0,呈隨機波動。如若殘差圖存在某種趨勢或模式,則有理由認為違背PH假定。本例的殘差圖見圖11-14。
圖11-14 32名乳腺癌患者Cox模型的Schoenfeld殘差圖
由圖11-14可見,當生存時間大于100時,殘差分布不對稱,大于0的殘差似乎偏多,且呈上升趨勢。這表明本例可能違背PH假定,擬合Cox比例風險模型似乎并不太合適,需要擬合其他模型予以分析。進一步分析見下面5.4節。

4.半參數加速失效時間模型

在大量醫學研究與應用中,發現盡管Cox比例風險模型具有眾多優點,其適用范圍相當廣泛,但是,仍有眾多資科不適合Cox模型來分析。這主要是因為Cox比例風險回歸模型事先要求資料滿足兩個基本假定:一是比例風險假定;二是對數線性假定。特別是,當資料違背比例風險假定時,如果強行擬合Cox比例風險模型,就極有可能得出與實際問題不相符合的解釋與預測等,甚至相反的結論。在腫瘤研究中,存在著大量誤用、濫用Cox模型的現象,需要可以替代Cox模型的統計方法,更好地分析醫學研究數據。
作為Cox比例風險模型的一種很好的替代模型,半參數加速失效時間模型(semi-parametric accelerated failure time model,semi-parametric AFT model)也是一種線性回歸模型,它把生存時間的對數作為反應變量,而且誤差項的分布也是未知的。該模型首先是由Pieruschka在1961年提出,并應用于加速壽命試驗。與Cox模型相比較,加速失效對間模型研究協變量與對數生存時間的回歸關系,模型形式更接近于一般的線性回歸方程,回歸系數的解釋也與一般線性回歸更相似,模型結果的解釋更為簡單、直觀,同時,也易于理解,有利于被醫學研究人員所接受。特別是,當所研究的因素僅僅是延遲或加快事件的起始時間,而不是對整個生存過程產生影響時,加速失效時間模型具有更好的統計效能,而在此情形下,Cox比例風險模型的統計效能極差。

(1)半參數加速失效時間模型的基本形式:

相關公式符號意義見前一節,加速失效時間模型的基本形式如下:

其中,T 0是不考慮協變量時的基準分布的生存時間,T為在協變量條件下的生存時間。在加速失效時間模型中,將生存時間之比的自然對數,協變量對其存在著線性影響,也就是說,生存時間的延長或縮短僅僅與協變量有關,與時間無關。為此,通常將上式取自然對數,將其線性化為:

進一步變形,可化為:

ln(T)=β1x12x2+…+βpxp+ ln(T0)=β1x12x2+…+βpxp

(11-73)

其中,誤差項ε表示獨立同分布的隨機變量。需要注意是,誤差項ε是基準生存函數的對數,其均數不一定為0,如果指定誤差項的分布,那么,上述模型即為參數加速失效時間模型,否則,就屬于半參數加速失效時間模型。從半參數加速時間模型的形式上看,與一般的線性回歸模型極為相似,無須對誤差項的分布進行指定,這使得該模型具有良好的可解釋性與可適用性。

(2)模型的基本假定:

根據半參數加速失效時間模型基本形式,該模型要求資料事先滿足兩個假定:一是對數線性假定;二是時間尺度比例假定。

1)對數線性假定:

半參數加速失效時間模型同樣假定協變量對失效時間的對數的影響為線性模型,時間之比的
的自然對數與各影響因素呈線性關系,服從線性模型的一般規則。各風險因素對時間之比的影響具有乘積性,而不是可加性。

2)時間尺度比例假定:

假設協變量x j,j = 1,2,…,p,均為0時,基準生存函數S 0(t)= e ε0,即,基準生存函數與誤差項ε 0存在著指數關系。如果個體具有協變量x,那么,

其中,參數φ= e -(β1x1+β2x2+…+βpxp),稱為加速因子(acceleration factor)。根據上式,協變量X的作用只是改變原來生存時間的尺度,改變的幅度大小由φ= e -(β1x1+β2x2+…+βpxp)來決定。當φ<1時,生存時間以一恒定比例被拉長,反之,生存時間以一恒定的比例縮短。其圖11-15如下:
圖11-15 不同加速因子的生存概率曲線
由于當φ>1時,其生存曲線存在著一個加速度,下降更快,故而,將該模型稱為加速失效時間模型。

(3)與風險比的關系:

根據生存函數,可以得到如下風險函數:

h(t,X)= h0(te-(β1x1+β2x2+…+βpxp))e-(β1x1+β2x2+…+βpxp)

(11-75)

假設有兩個個體,其協變量的值分別為X和X *,其風險比為:

根據上式,不難推論出,當生存時間分布服從Weibull分布時,加速失效時間模型與Cox比例風險模型是完全等價。另外,由上式也可知,加速失效時間模型無須滿足比例風險假定,可以處理更廣泛的生存數據類型。
在回歸系數解釋上,加速失效時間模型回歸系數是針對生存時間之比而言,而Cox比例風險模型是針對風險之比而言的。

(4)參數估計:

本節主要介紹Jin所提出的基于秩的加速失效時間模型估計方法。令 ,定義殘差:

定義兩個計數過程N i(β;t)與Y i(β;t),

Ni(β;t)= Iti≤tI{ ei(β)≤t}

Yi(β;t)= I{ ei(β)≥t}

那么,回歸系數β的加權log-rank估計函數為

或者,

其中,X(b;t)= S (1)(b;t)/S (0)(b;t),w是加權函數。顯然,當φ=1時,該統計量就是log-rank檢驗統計量;當φ= S (0)時,該統計量就是Wilcoxon(Gehan)檢驗統計量。因此,可以說,半參數加速失效時間模型是乘極限法與壽命表法的一種自然擴展。然而,Cox比例風險模型卻難以視為對一個分組因素時非參數生存分析方法的自然擴展。
加速失效時間模型回歸系數的估計為加權log-rank估計函數U w(β)的根。雖然回歸系數的估計較易得到,但是,其方差協方差陣極難計算,使得各回歸系數的檢驗統計量與可信區間的計算難以實現。一種可行的方法就是使用bootstrap法,重復抽樣得到回歸系數估計的經驗分布,從而,得到回歸系數 與Cox比例風險模型回歸系數的流行病學意義不同的是,加速失效時間模型回歸系數具有比較明確的臨床意義,它直接反映了各協變量對各個個體生存時間的影響。由加速失效時間模型的公式,可以得到

S(t|X)= S0(te-(β1x1+β2x2+…+βpxp)

(11-80)

回歸系數β j的指數e βj稱為時間比(time ratio)。其不會隨著時間的變化而改變,保持恒定。它與生存函數S(t│X)之間有如下關系:當e βj>1時,則隨著協變量x j的增大,生存函數S(t│X)的遞減速度也相應減小,表示患者的生存時間越長;當e βj<1時,則隨著協變量x j絕對值的增大,生存函數S(t│X)的遞減速度也相應增大,表示患者的生存時間越短;當e βj=1時,則協變量x j對生存函數S(t│X)沒有影響,表示患者的生存時間無變化。
從上面的公式,難以直觀地看出各協變量的意義,采用分位函數(quantile function)的形式,可將其變換如下:

Q(p|X)= Q0(p)e-(β1x1+β2x2+…+βpxp)

(11-81)

由上式可見,對某個協變量特定取值而言,在保持其他協變量取值不變的情形下,回歸系數β j可以解釋為該協變量變化一個單位,其生存時間變化e βj倍(圖11-16)。
圖11-16 加速失效時間模型
需要說明的是,根據上圖中的左圖,兩組的生存時間具有明顯差異,而通過右圖,兩組的風險基本一致,這是因為兩條生存函數曲線的斜率基本相等之故。由此可見,相對危險度的高低與生存時間的長短并不存在必然聯系,相對危險度高不意味著生存時間短,相對危險度為1,也不意味著生存時間相等,相對危險度低也不意味著生存時間就長。與相對危險度不同的是,時間比的解釋比較直觀,直接反映生存時間的長短,時間比是臨床研究的關注焦點。而相對危險度,是流行病學研究的關注焦點,它只能間接地反映個體的生存時間。

2)個體加速因子:

如果加速因子越大,那么,某特定患者的整個生存期越短;反之,加速因子越小,整個生存期越長。當φ>1時,其生存曲線下降較快,整個生存期較短;當φ<1時,其生存曲線下降較慢,整個生存期較長;當φ=1時,其生存曲線與基準生存曲線相同,整個生存期與基準生存期相同。
如果對各協變量進行標準化變換后,得到的加速失效時間模型的線性參數部分,即為標準化的時間比。當標準化的時間比為1時,表明某特定患者的整個生存期達到平均生存水平;當標準化的時間比大于1時,表示該患者的整個生存期短于平均生存水平;當標準化的時間比小于1時,表示該患者的整個生存期長于平均生存水平。

3)時間尺度變化比例:

加速失效時間模型可以描述任意兩個個體生存狀態之間的關系。對于具有協變量X和X *的兩個個體(前者為甲個體,后者為乙個體),其生存函數之間的關系為:

上面公式表明,任意兩個個體僅僅是生存時間尺度發生變化,時間尺度變化比例為δ *,表示二者之間的整個生存期相差δ *倍。當時間尺度比例δ *>1時,表示甲個體整個生存期要短于乙個體;當時間尺度比例δ *<1時,表示甲個體整個生存期要長于乙個體;當時間尺度比例δ *=1時,表示甲個體與乙個體的整個生存期相當。例如,若δ *=4,則表示這兩個個體在整個生存期均相差4倍。

(6)模型選擇:

從理論上講,Cox比例風險模型的兩個基本假定——對數線性假定與比例風險假定難以驗證,加速失效時間模型的兩個基本假定——對數線性假定與時間尺度比例假定也同樣難以驗證。因此,從實用的角度來說,選擇何種統計模型的較佳途徑是依據數據的擬合程度和可解釋性來予以判斷。
如果加速失效時間模型對數據的擬合程度和可解釋性要明顯好于Cox比例風險模型,那么,應采用加速失效時間模型。反之亦然。但是,如果這兩模型對數據的擬合程度與可解釋性相近,那么,就必須要考慮其他的一些因素。例如,對于同一個影響因素采用相對危險度來衡量其對生存時間的影響,并且,其他研究者均采用Cox比例風險模型。此時,為了便于各個研究之間的比較與分析,最好還是采用Cox比例風險模型。反之,當研究目的是為了得到更好的預測效果,并且,需要各影響因素對生存時間影響更為直觀的解釋時,則采用加速失效時間模型無疑要優于Cox比例風險模型。
到目前為止,半參數加速失效時間模型在參數估計、統計檢驗與實際效能驗證等方面尚不如Cox比例風險模型研究的成熟與全面,并且,缺乏可靠的、易用的統計軟件來實現半參數加速失效時間模型,加上,現在的醫學研究人員對該模型缺乏深入的了解,這些都導致半參數加速失效時間模型沒有得到廣泛的應用,較少見于各種醫學研究文獻之中。
例11-17對例11-16的資料配合半參數加速失效時間模型。資料見表11-29。對該資料配合Cox比例風險模型后的殘差分布不對稱,大于0的殘差似乎偏多,且呈上升趨勢。這表明本例可能違背PH假定,利用半參數加速失效時間模型對本資料進行分析。對每個影響因素單獨進行單因素半參數AFT回歸分析,采用R統計軟件中的rankreg程序包擬合半參數加速失效時間模型。得到表11-31。由于半參數加速失效時間模型的參數估計與加權函數的選擇有著直接的關系,因此,為了間接排除權重函數對其參數估計的影響,將采用兩種常用的加權函數,即,Gehan加權與Logrank加權,對半參數加速失效時間模型的回歸系數同時進行估計。如果在兩種不同加權函數的情形下,某影響因素的回歸系數的估計值相近,可以說明該影響因素對乳腺癌患者存在著較為確切的影響;如若不然,則需要謹慎下結論。
由表11-31可見,無論在Gehan加權的情形下,還是在Logrank加權的情形下,在α=0.05水準上,有統計學意義的因素同樣為遠期生活質量評分。
表11-31 32名乳腺癌患者術后生存資料單因素半參數AFT模型分析結果
因此,也無須對該資料進行多因素半參數AFT模型分析,僅將KPS納入到半參數
AFT模型之中。根據上表結果,可以認為對乳腺癌患者生存時間有影響的因素是遠期生活質量評分。從回歸系數的符號和相對危險度的大小來看,該因素是保護性因素。乳腺癌患者KPS每增加10分,術后整個生存期將延長至1.40倍左右,延長約40%。此研究表明遠期生活質量評分越高,其生存時間越長。
本例半參數AFT模型表達式為:

S(t│X)= S0(te-0.011KPS

S(t│X)= S0(te-0.013KPS

表達式右側指數部分取值越大,則加速因子越大,生存時間相對越短。本例加速因子為e -0.011KPS或e -0.013KPS。同樣,也可按適當的加速因子將觀察個體分組,正確指導乳腺癌患者的治療與康復。
綜上所述,從本例資料來看,無論是Cox比例風險模型,還是半參數AFT模型,均表明遠期生活質量評分對于乳腺癌患者術后生存起著至關重要的作用,如何有效提高遠期生活質量是乳腺癌患者術后治療與康復的關鍵性問題。

5.生存分析應用的注意事項

(1)癌癥患者的隨訪期較長,影響因素多,在研究期間,易引入各種混雜因素。因此,不能輕易下結論。生存分析結論的正確性往往不在于方法的選擇,更多地在于科學的研究設計與良好的質量控制。如何保證癌癥患者生存研究的質量與過程控制才是生存分析的真正關鍵所在。
(2)在應用各種生存分析回歸模型時,必須對各種模型的前提進行檢驗。例如,Cox比例風險模型的PH假定,半參數AFT模型的時間尺度比例假定等。這些假定都是對客觀事物的一種抽象與近似,并不是客觀存在的,應更多地從所收集的數據出發,在準確把握數據特性的基礎之上,再決定采用何種模型更為合理。這就要求在進行癌癥患者生存研究之前,必須要有對研究對象的深入了解與分析和(或)良好的預試驗,事先確定各種生存模型的備選路徑方案,而不是事后盲目選擇。
(3)在建立生存模型的過程中,除了參考統計方面的證據之外,應更多地依賴于專業上的理論與可解釋性,來判斷研究是否真正滿足生存分析的假設前提,刪除或增加變量應相當謹慎。另外,為了保證生存分析的嚴密性,必須進行生存分析模型的敏感性分析,特別是截尾對生存模型的影響,以了解所建立的模型是否具有較強的穩健性。如若模型不太穩健,則需要對整個研究重新進行審視,而不是從統計上作修補的工作。

(陳心廣 蔣紅衛 余松林)

滿山野花 中國共產黨常用黨內法規規范性文件匯編(2018年版) 甜婚蜜愛:傅少追妻上癮了 全球進化后我站在食物鏈頂層 魔尊也想知道 美女護士 救贖偏執主角后[穿書] 魂帝 林羽江顏結局 極品大太監

本站所有小說均由搜索引擎轉碼而來,只為讓更多讀者欣賞,本站不保存小說內容及數據,僅作宣傳展示。

Copyright © 2024 噠噠看書網sitemap