Cox回归模型为半参数模型,它不对基线风险函数进行估计。如果生存资料确实符合某一特定分布,采用实际分布能够更准确的估计对应参数。对半参数回归对应为参数模型(parameteric models)。包括指数分布和weibull分布等。
-各个函数之间的关系
?????- 死亡概率密度函数:
?????- 死亡累积概率密度函数:
?????- 生存函数:
?????- 风险函数:
?????- 累积风险函数:
?????- 生存函数与累积风险函数的关系:
-指数分布
?????-概率密度函数:
?????-累积概率密度函数: (F(t)求导为f(t))
?????-生存函数:
?????-风险函数:,由此可见指数分布的风险恒定为λ
?????-累积风险函数:
?????-中位数:
?????-均值:
?????由生存函数可得, -log{S(t)}=λt,即与生存时间t呈线性。因此可以通过对-log(S(t))与t绘图是否呈过原点的直线来判断该生存资料是否符合指数分布。
?????SAS中通过proc lifetest data=XX plots=(logsurv) 绘图实现。
-威布尔分布
?????- 死亡概率密度函数:
?????- 死亡累积概率密度函数:
?????- 生存函数:
?????- 风险函数:
?????当γ=1时,为指数分布。
?????分布具有两个参数:
??????????γ:Shape parameter
??????????λ:Scale parameter
??????????中位数:
?????对生存函数取log(-log):。当与呈直线时,可以考虑符合weibull分布。该图的截距为logλ近似估计参数λ,斜率近似为γ。如果两条线平行,则考虑符合等比例风险假设。 ?????当斜率γ=1,此时为指数分布。
-参数估计
均通过极大似然估计(Maximum likelihood estimation)求参数。似然函数
??????????????????????????????????????????????????????????????,
其中n为受试者数,δi=1(事件发生),δi=0(删失)。将对应的f(t)及S(t)带入后求极大值(求对数后求导,导数为0时即最大值)
指数分布
e.g.
变量 | ||||||||||
---|---|---|---|---|---|---|---|---|---|---|
1 | 1 | 2 | 3 | 3 | 5 | 8 | 10 | 16 | 18 | |
1 | 1 | 1 | 0 | 1 | 1 | 1 | 1 | 0 | 1 |
Weibull分布
weibull分布的参数估计需要通过迭代的方法计算。
-引入协变量
当生存资料中除时间以外还存在其他变量的影响时,需要将变量考虑进回归模型。与Cox回归类似。
由于时间t不为负,将其取对数后变换为在(-∞,∞)之间,可以采用线性回归模型(对数时间线性模型)。
,为常数,为随机误差服从某一特定分布。
则 ,当所有协变量为0时为不受协变量影响时的基准生存时间,需要包括在模型中。
*加速失效模型
*服从极值分布时,对应指数分布和weibull分布
指数分布:当时,的分布为时,为指数分布 ,
weibull分布:当为常数(需要从数据中估计),分布不变,
为weibull分布 ,
,。
表示为风险函数:=,此时scale变为λexp(β'x'),shape仍为γ不变。当所有协变量为0时,基准风险率为,此时模型中不需要包括。
-SAS 实现
Proc lifereg data=XXX
Class XX;
model timestatus()=XX XX /dist=exponential;
model timestatus()=XX XX /dist=weibull;
run;
计算出线性模型中后,可以通过相应的公式估算及的值。