variancePartition

估计对表达变异的贡献

在传统的统计学和生物统计学中,将分类变量建模为固定效应和随机效应之间有很大的区别。随机效应对应的是从较大群体中抽取的单位样本,而固定效应对应的是特定个体的属性。随机效应通常被视为有害变量并被整合出来,并对固定效应进行假设检验。

r2glmmPackage符合这一传统框架,通过计算给定固定效应的方差分数:\[开始\ {eqnarray} \σ^ 2 _{固定}/ \离开(\σ^ 2 _{固定}+ \σ^ 2 _{错误}\)\ {eqnarray}结束\]

重要的是,随机效应并不在分母中。分数只由固定效应和残差决定。

根据我在生物信息学方面的经验,这是个问题。这样区分固定效应和随机效应似乎有些武断。表型的方差可能是由于年龄(固定)或跨主体的变化(随机)。将所有变量包括在分母中产生了更直观的结果,因此1)所有成分的方差分数之和为1,2)固定和随机效应可以在同一尺度上解释3)不同设计的研究之间的分数可以进行比较,4)方差分数的估计是最准确的。所以在variancePartition中,分数被定义为:\[开始\ {eqnarray} \σ^ 2 _ {X} / \离开(\σ^ 2 _{固定}+ \σ^ 2 _{随机}+ \σ^ 2 _{错误}\)\ {eqnarray}结束\]

把每个变量代入分子。

因此,variancePartition计算的派系不同于r2glmm通过定义。

下面是一些代码显式地演示了这种差异:

受试者X残差0.4505 0.4952 0.0543
[1] 0.901
影响Rsq上。CL低。CL 1型号0.896 0.904 0.886 2 X 0.896 0.904 0.886

所以公式是不同的。但是为什么需要分类变量作为随机效应呢?

在实践层面上,有太多层次的分类变量是有问题的。使用200个类别变量作为固定效应在统计上是不稳定的。因为自由度太大,即使是在零下变量也会吸收很多方差。从统计学上讲,如果一个变量是一个固定效应,那么估计具有多个类别的变量的方差分数可能会有偏差。因此,variancePartition要求所有类别变量都是随机效果。将该变量建模为随机效应,在实践中产生无偏的方差分数估计。的补充(第1.5节)中的模拟霍夫曼和Schadt (2016)

固定效应和随机效应之间的区别在公式中很重要,因为它影响哪些变量被放在分母中。因此,选择将变量建模为固定效应和随机效应,肯定会改变估计的分数。

然而对于variancePartition公式中,所有变量都在分母中,不受固定/随机决策的影响。此外,使用随机效应经验地减少了估计分数的偏差。

最后,为什么使用最大似然估计参数而不是默认的REML ()?最大似然联合拟合所有参数,从而同时估计固定效应和随机效应。如果我们以后想比较固定效果和随机效果,这是很重要的。相反,REML通过在估计之前从响应中去除固定效应来估计随机效应。在计算方差分数时,这将隐式地从分母中去除固定效应。REML将固定效果视为讨厌的变量,而variancePartition将固定效应作为分析的核心部分。

当REML产生方差分量的无偏估计时,的目标是variancePartition是联合估计固定效应和随机效应的方差分数。的补充(第1.5节)中的模拟霍夫曼和Schadt (2016), REML产生方差分数的有偏估计,而最大似然估计是无偏的。

梦想

假设检验

梦想也是基于线性混合模型,本分析的目的是对固定效应进行假设检验。随机效应被视为有害变量被积分出来,和一个近似的零分布的t或f统计量是由模型拟合构造。

由于分析的目标不同,使用REML和ML的考虑也不同于上面的考虑。While是由when调用所必需的,可以与as或as连用。由于在我们的模拟中,Kenward-Roger方法给出了最好的功率,并准确控制了假阳性率,并且由于Satterthwaite方法给出的p值略接近Kenward-Roger p值,因此被设置为默认值。