摘要
将变量建模为固定效应与随机效应之间的区别取决于统计分析的目标。虽然一些理论和软件做出了明显的区分,variancePartition
而且梦想
根据每种类型分析的目标采取不同的方法。这里我们考虑固定和随机效应之间的区别,以及REML在模型中的使用variancePartition
而且梦想
.variancePartition
在传统的统计学和生物统计学中,将分类变量建模为固定效应和随机效应之间有很大的区别。随机效应对应的是从较大群体中抽取的单位样本,而固定效应对应的是特定个体的属性。随机效应通常被视为有害变量并被整合出来,并对固定效应进行假设检验。
的r2glmm
Package符合这一传统框架,通过计算给定固定效应的方差分数:\[开始\ {eqnarray} \σ^ 2 _{固定}/ \离开(\σ^ 2 _{固定}+ \σ^ 2 _{错误}\)\ {eqnarray}结束\]
重要的是,随机效应并不在分母中。分数只由固定效应和残差决定。
根据我在生物信息学方面的经验,这是个问题。这样区分固定效应和随机效应似乎有些武断。表型的方差可能是由于年龄(固定)或跨主体的变化(随机)。将所有变量包括在分母中产生了更直观的结果,因此1)所有成分的方差分数之和为1,2)固定和随机效应可以在同一尺度上解释3)不同设计的研究之间的分数可以进行比较,4)方差分数的估计是最准确的。所以在variancePartition中,分数被定义为:\[开始\ {eqnarray} \σ^ 2 _ {X} / \离开(\σ^ 2 _{固定}+ \σ^ 2 _{随机}+ \σ^ 2 _{错误}\)\ {eqnarray}结束\]
把每个变量代入分子。
因此,variancePartition计算的派系不同于r2glmm
通过定义。
下面是一些代码显式地演示了这种差异:
图书馆(“variancePartition”)图书馆(“lme4”)图书馆(“r2glmm”)set.seed(1)N =1000β=3.α=c(1,5,7)#生成3个等级的1个固定变量和1个随机变量data =data.frame(X =rnorm(N),主题=样本(c(“一个”,“B”,“C”),One hundred.,取代=真正的))#模拟变量# y = X\beta + Subject\alpha + \sigma^2数据$y =数据$X*β+model.matrix(~数据$主题)% * %α+rnorm(N,0,1)#适合模型适合=lme三个月(y~X+(1|主题)、数据REML =假)使用variancePartition计算方差分数#在分母中包含总数压裂=calcVarPart(适合)裂缝分析
受试者X残差0.4505 0.4952 0.0543
[1] 0.901
影响Rsq上。CL低。CL 1型号0.896 0.904 0.886 2 X 0.896 0.904 0.886
所以公式是不同的。但是为什么需要分类变量作为随机效应呢?
在实践层面上,有太多层次的分类变量是有问题的。使用200个类别变量作为固定效应在统计上是不稳定的。因为自由度太大,即使是在零下变量也会吸收很多方差。从统计学上讲,如果一个变量是一个固定效应,那么估计具有多个类别的变量的方差分数可能会有偏差。因此,variancePartition
要求所有类别变量都是随机效果。将该变量建模为随机效应,在实践中产生无偏的方差分数估计。的补充(第1.5节)中的模拟霍夫曼和Schadt (2016).
固定效应和随机效应之间的区别在公式中很重要,因为它影响哪些变量被放在分母中。因此,选择将变量建模为固定效应和随机效应,肯定会改变估计的分数。
然而对于variancePartition
公式中,所有变量都在分母中,不受固定/随机决策的影响。此外,使用随机效应经验地减少了估计分数的偏差。
最后,为什么使用最大似然估计参数而不是默认的REML ()?最大似然联合拟合所有参数,从而同时估计固定效应和随机效应。如果我们以后想比较固定效果和随机效果,这是很重要的。相反,REML通过在估计之前从响应中去除固定效应来估计随机效应。在计算方差分数时,这将隐式地从分母中去除固定效应。REML将固定效果视为讨厌的变量,而variancePartition
将固定效应作为分析的核心部分。
当REML产生方差分量的无偏估计时,的目标是variancePartition
是联合估计固定效应和随机效应的方差分数。的补充(第1.5节)中的模拟霍夫曼和Schadt (2016), REML产生方差分数的有偏估计,而最大似然估计是无偏的。
梦想
而梦想
也是基于线性混合模型,本分析的目的是对固定效应进行假设检验。随机效应被视为有害变量被积分出来,和一个近似的零分布的t或f统计量是由模型拟合构造。
由于分析的目标不同,使用REML和ML的考虑也不同于上面的考虑。While是由when调用所必需的,可以与as或as连用。由于在我们的模拟中,Kenward-Roger方法给出了最好的功率,并准确控制了假阳性率,并且由于Satterthwaite方法给出的p值略接近Kenward-Roger p值,因此被设置为默认值。