生存分析——给宁康康什么时候有女朋友

宁有女朋友吗，来，先给宁康康什么时候会结婚，哈哈!

以50岁为截断，你从出生开始，到 t 时刻没有女朋友的概率为多大？这个概率会受什么影响呢？

1）时间，随着年纪的增大，结婚的概率也会越来越大，这个因素仅仅取决于时间；

2）一些客观因素影响，比如：学历、财力、阅历、魅力、blabla

综上，我们抽象出了两部分的因素，一部分受时间的影响，你可以理解为是自然情况下的概率（不谈少数类）；

另一部分受客观因素的影响，这些因素会影响整体的概率，使得它在基准上增加或减少（另一半的质量）。

有人问了这跟生存分析有什么关系，生存分析是对生存资料的分析。通过对某一具有相同特质的群体进行数据分析，我们可以得到这类人活过一定时间的概率。这就叫做生存分析。推广来说，疾病的复发可以看做“健康期”的生存，机器的故障可以看做“机器”的生存，甚至下岗职工再就业可以看做“失业期”的生存，生存分析可以被推广至很多问题的分析中去。所以‘宁有没有女朋友‘’也是一个接地气的生存分析的案例。好了，现在有学习生存分析的兴趣了吧，下面我们要来一些干货了。

可能叛逆的人已经在骂我，凭啥50岁截断，50以上不让谈恋爱吗？可以，恋爱自由的！下图蓝色线就是这些人了。这里就引入了数据截断的问题，在实际问题分析中，往往可能存在这样的数据，超出可测量的范围，或极少发生，但实际分析时不可能因为样本一直存活着，我们就一直将某个实验做下去。生存分析最初被设计出来的目的就是为了处理存在右侧截断的这种数据的。但是，即使我们的数据不包含右侧截断，生存分析仍然是一个强大有效的工具。并且生存分析并不要求所有样本在同一时刻开始，它只关注每个样本从开始到结束之间的间隔时间，每个样本随时可以发生。

生存分析——给宁康康什么时候有女朋友

生存分析的三个基本对象

生存函数 S ( t ) = P r ( T > t )
解释：S ( t ) 描述了这个群体的样本生存时间大于t的概率，换句话说，直到时刻t,宁仍然没有女朋友的概率。（担心）

它有以下几个性质：

0 ≤ S ( t ) ≤ 1
F T ( t ) = 1 − S ( t ) ，F T ( t ) 是随机变量T的累积分布函数。
S ( t ) 是一个单调不增的函数。

一个生存函数的示例：

生存分析——给宁康康什么时候有女朋友

风险函数

生存分析——给宁康康什么时候有女朋友

累计风险函数

生存分析——给宁康康什么时候有女朋友

那么S ( t ) 又可以写为S ( t ) = e x p ( − H ( x ) )

上面的方程式，定义了所有生存函数。请注意，我们现在可以谈论生存功能????(????)或累积风险函数????(????)，我们可以轻松地来回转换。

生存分析——给宁康康什么时候有女朋友

下面两个图表表示上图中风险函数和累积风险。

生存分析——给宁康康什么时候有女朋友

Kaplan-Meier估计生存函数

Kaplan-Meier是一种单因素生存分析方法，可用生存率的估计、生存率比较及较影响因素分析。倾向于给与某种治疗措施后生存时间的变化情况。大小样本均适用，除比较因素外要求其他混杂因素组间均衡。当用分层变量控制混杂因素时，分层因素只限一个，且须是分类变量.

生存分析——给宁康康什么时候有女朋友

随着时间推移，收入不断增加，没有结婚的概率随之减小；右图显示90后（黄）明显比80后（蓝色）结婚晚（横坐标有误）；

Log-Rank test 比较不同的生存曲线

在利用KM方法得到多条生存曲线后，只通过直接的观察来确定多条曲线之间是否具有显著性差异是不充分的。因此，log-rank test被广泛的用来比较两条或多条生存曲线。

1）log-rank test是一种非参数检验，因此对于生存概率的分布没有任何假设；
2）同时，log-rank test 的null hypothesis（原假设）为两个曲线代表的两个组之间，在生存率上没有显著性差异。
3）log-rank test比较的是每个组中观察到的事件数，与在原假设为真的情况下，每个组期望的事件数。
4）log-rank test统计量类似于卡方检验（Chi-square test）的统计量

Cox比例风险模型（cox proportional-hazards model）

Cox比例风险模型（cox proportional-hazards model），简称Cox模型，是由英国统计学家D.R.Cox(1972)年提出的一种半参数回归模型。该模型以生存结局和生存时间为应变量，可同时分析众多因素对生存期的影响，能分析带有截尾生存时间的资料，且不要求估计资料的生存分布类型

Cox模型的基本假设为：

在任意一个时间点，两组人群发生时间的风险比例是恒定的；或者说其危险曲线应该是成比例而且是不能交叉的；也就是如果一个体在某个时间点的死亡风险是另外一个体的两倍，那么在其他任意时间点的死亡风险也同样是2倍总之，Cox模型的协变量（变量因素）参数必须满足上述假设，但是有时在研究过程中会遇到延迟反应、假性进展，从而导致生存曲线（如PFS）早期就纠缠在一起，几个月后才分开，这在免疫疗法中会遇到免疫治疗困局：COX模型不符合等比例风险假设怎么办？，这时Cox模型的假设就不成立了。

Cox 模型的定义： h(t,Xi)=h0(t)×exp(Xiβ)

其中，h0(t)h_0(t)h0(t)是基准风险方程，可以是任意一个针对时间ttt的非负方程；XiX_iXi是实例iii的特征向量；β\betaβ是参数向量，该向量是通过最大化cox部分似然得到的。

Cox 模型结果解读

生存分析——给宁康康什么时候有女朋友

coef就是公式中的回归系数b（有时也叫做beta值），因此exp(coef)则是Cox模型中最主要的概念风险比（HR-hazard ratio）：

HR = 1: No effect
HR < 1: Reduction in the hazard
HR > 1: Increase in Hazard

z值代表Wald统计量，其值等于回归系数coef除以其标准误se(coef)，即z = coef/se(coef)；

有统计量必有其对应的假设检验的显著性P值，其说明bata值是否与0有统计学意义上的显著差别

coef值小于0说明HR值小于1；lower .95 upper .95则是exp(coef)的95%置信区间

Likelihood ratio test，Wald test，Score (logrank) test则是给出了3种可选择的P值，这三者是asymptotically equivalent；当样本数目足够大时（我也不知道多少样本是足够大。。），这三者的值是相似的；当样本数目较少时，这三者是有差别的，但是Likelihood ratio test会比其他两种在小样本中表现的更优

总结：

在进行Cox回归分析前，如果样本不多而变量较多，建议先通过单变量分析（KM法绘制生存曲线、Logrank检验等）考察所有自变量与因变量之间的关系，筛掉一些可能无意义的变量，再进行多因素分析，这样可以保证结果更加可靠。即使样本足够大，也不建议把所有的变量放入方程直接分析，一定要先弄清楚各个变量之间的相互关系，确定自变量进入方程的形式，这样才能有效的进行分析。

单因素分析后，应当考虑应该将哪些自变量纳入Cox回归模型。一般情况下，建议纳入的变量有：1）单因素分析差异有统计学意义的变量（此时，最好将P值放宽一些，比如0.1或0.15等，避免漏掉一些重要因素）；2）单因素分析时，没有发现差异有统计学意义，但是临床上认为与因变量关系密切的自变量。

Cox模型与Kaplan-Meier法：

Kaplan-Meier法是非参数法，而Cox模型是半参数法，一般来说在符合一定条件下，后者的检验效应要大于前者

Kaplan-Meier法一般处理单因素对研究生存结局的影响，而Cox模型可以同时处理多个因素对生存结局的影响

女朋友只是一个引子，重点是让你有学下去的兴趣，加油哦！