鐘山紫竹林 / 統計 / 生存分析(三)log-rank檢驗在什么情況下...

0 0

   

生存分析(三)log-rank檢驗在什么情況下失效?

2020-01-15  鐘山紫竹林

在醫學雜志中,幾乎絕大多數的生存曲線比較,都是用log-rank檢驗。根據我個人的審稿以及看到的文章情況,怎么也在98%以上。然而,log-rank檢驗并非生存曲線比較的萬能法寶。事實上,在有些情況下,log-rank檢驗結果未必有效,或者說的嚴重一點,有可能是錯誤的,會給你誤導。本文就說一下,log-rank檢驗到底在什么情況下失效?

首先,簡單介紹一下log-rank檢驗。

log-rank檢驗,中文一般翻譯為對數秩檢驗。常用于生存數據的組間比較。其基本原理大概是這樣(以兩組比較為例):

將兩組非刪失時間混合從小到大排序,得多個四格表,每個四格表如下:

然后計算公式如下(你肯定在想,為什么要介紹公式?我又不手動計算,看公式有什么用?但是,想要理解不同檢驗方法的區別,還真的得看看公司,當然,你不用了解太深入,大致明白什么意思即可):

這個公式是不是跟卡方檢驗的公式很像呢?其實這就是卡方,統計量就是卡方。只不過換了個應用場景而已。

舉例說一下,假設有兩組數據,第一組(control)如下:

也就是說,在第2個月,死亡1例,總共22人剩了21人。

第二組(treated)如下:

也就是說,第二組人,在第2個月,死亡1例,總共22人剩了21人。

所以,在2個月這個時間點,兩組情況是:

以此類推,就能得到,第3個月這個時間點,兩組情況變成了:

一直往下計算,就能得到多個時間點的四格表,每個四格表就能根據上述公式計算,最后把多個時間點的求和,就得到了log-rank檢驗統計量。

其次,介紹一下Wilcoxon檢驗(Breslow檢驗)。

除了log-rank檢驗之外,還有一種比較常用的(而且大多數軟件中都是和log-rank檢驗一起出現的)的方法是wilcoxon檢驗(spss中叫法是Breslow檢驗)。可能很多人都聽過這個名字,可能會想,這不是秩和檢驗嗎?其實統計學中經常有這種問題,在不同場合看到同樣的名字(其實你在ROC曲線下面積的檢驗中依然能看到wilcoxon檢驗的身影)。但往往并不是一回事。起碼公式并不相同。

這里的wilcoxon檢驗的公式是:

仔細看一下其實它跟上面說的log-rank檢驗很像,除了公式中在每個字母前面多了個N。這個N是個例數,即不同時間點at risk的例數。這個例數就像個權重系數。可以想象,時間越往后,后面的四格表例數會越少,相當于越往后N這個值越小。在換句話說,時間越靠后,權重越小。而log-rank檢驗你可以想象出一個權重,也就是1(因為公式中a、e那些字母前面沒有東西,所以可以認為是乘以1)。那就可以說,它不隨時間的變化而減小。

然后,比較一下log-rank檢驗和Wilcoxon檢驗(Breslow檢驗)。

正因為權重的不同,導致了兩組方法有一定的傾向性。Wilcoxon檢驗對生存時間較短的個體(也就是比較靠前的那些人)賦予較大權重,所以更容易檢驗出早期的差異。相比之下,log-rank檢驗則更容易發現后期有差異的個體。

總結如下:

如果log-rank檢驗有意義而Wilcoxon檢驗無意義,表明可能遠期差異較大,早期則不一定,有可能差異不大。

如果log-rank檢驗無意義而Wilcoxon檢驗有意義,表明早期生存差別較大,遠期生存差異不大。

通過實例說明一下:

下面這個圖,其結果為:log-rank檢驗結果的P值為0.27,Wilcoxon檢驗結果的P值為0.05。

下面這個圖,其結果為:log-rank檢驗結果的P值為0.07,Wilcoxon檢驗結果的P值為0.32。

這兩個生存曲線的比較,log-rank檢驗和Wilcoxon檢驗的結果差別均較大。第一個圖,后面差別較小,前面相對而言差別大一些,所以Wilcoxon檢驗有統計學意義;第二個圖,前面幾乎沒有差異,所以Wilcoxon檢驗無統計學意義,而log-rank檢驗接近0.05。

一般來說,log-rank檢驗的應用條件跟COX回歸類似,都需要滿足等比例風險假定條件,通俗來說,最好是兩條曲線大致平行(當然這不是嚴格定義,但容易理解)。Wilcoxon檢驗對服從對數正態分布的生存數據比log-rank檢驗更好一些。

最后,簡單說一下其它檢驗方法。

除了log-rank檢驗和Wilcoxon檢驗,還有其它幾種常見的,也是軟件提供的。如Peto檢驗,Tarone-Ware檢驗。它們與log-rank檢驗和Wilcoxon檢驗的不同就是權重不一樣,如Tarone-Ware檢驗的權重是根號N,即N的平方根,也就是說,它也是越來越小,但是既然開了根號,那變化就沒有那么大了。Peto檢驗的權重是生存估計函數,也是一個變化值。所以,其實根據這些權重,就不難理解這些方法側重的方向。

最最后,幾種檢驗方法應用場景小結。

從統計學角度,這幾種檢驗方法其實所做的無效假設都是一樣的,都是為了檢驗組間的生存曲線是否有統計學差異。然而,具體細節上有不同。如果你在研究時,確信某種療法在一開始效果較好,隨著時間推移,可能效果會減弱,此時應事先就確定采用Wilcoxon檢驗(或Tarone-Ware檢驗,視情況而定)而不是log-rank檢驗。采用log-rank檢驗,實際上相當于你對某種療法并沒有太多的概念,可能認為該療法在整個研究期間應該效果差不多。

嚴格來說,統計學不應該根據事后的生存曲線圖和p值來選擇方法,而應該在研究設計時就有計劃,確定統計學方法。因為它們所對應的情形并不相同。

    本站是提供個人知識管理的網絡存儲空間,所有內容均由用戶發布,不代表本站觀點。如發現有害或侵權內容,請點擊這里 或 撥打24小時舉報電話:4000070609 與我們聯系。

    猜你喜歡

    0條評論

    發表

    請遵守用戶 評論公約

    類似文章 更多
    喜歡該文的人也喜歡 更多

    雷火电竞 <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <文本链> <文本链> <文本链> <文本链> <文本链> <文本链>