doppelgangR 1.26.0
doppelgangR是一个用于在转录组谱数据集内或之间识别重复样本的包。它适用于生物复制通常比技术复制更独特的微阵列和RNA-seq基因表达谱,就像具有“噪声”基因组的癌症类型一样。它适用于每个基因摘要可用但没有完整基因型的情况,这是典型的公共数据库,如基因表达Omnibus。
的doppelgangR ()
函数以三种不同的方式识别重复项:
“表情”doppelgängers具有高度相似的表达谱,默认情况下,根据生物重复之间的皮尔逊相关性的经验分布,其皮尔逊相关性高于预期。相关性的类型,以及默认的ComBat批更正的使用,可以使用“corFinder”更改。args”的论点。
“表现型”doppelgängers具有高度相似的临床或表型数据,如包含在表型数据槽的ExpressionSet
.为了以这种方式识别重复,需要对每个具有相同列名的ExpressionSet的phenoData进行管理,并以相同的方式编码表型。例如,如果每个数据集提供有关年龄的信息,那么在每个数据集中,可以将这一列的表型数据称为“年龄”,并将其编码为年份的整数。如果phenoData槽为NULL,则这种类型的检查将自动关闭。如果它们不是NULL,但也没有被策展,您应该通过设置关闭表型检查phenoFinder.args =零
.
“确凿证据”Doppelgängers具有相同的标识符值,该标识符应该是唯一的。您可以通过设置参数“manual”来启用这种类型的检查。冒烟枪”到包含所谓唯一标识符的列的名称,或设置“自动”。smokingguns”设置为TRUE,并且该函数将假设列内包含唯一值的任何列在数据集上也应该是唯一的。
这个小插图集中在doppelgänger的“表达式”类型上。
识别doppelgängers是有效的微阵列和对数转换RNA-seq数据,甚至匹配样本已经通过微阵列和RNA-seq分析。
我们加载数据集由Yoshiharaet al。都是精心策划的curatedOvarianData.这些是类的对象ExpressionSet
.
库(curatedOvarianData)数据(GSE32062.GPL6480_eset)数据(GSE17260_eset)
的doppelgangR
函数需要的列表ExpressionSet
对象作为输入,我们在这里创建:
testesets <- list(japanese ea =GSE32062.)GPL6480_eset Yoshihara2010 = GSE17260_eset)
现在运行doppelgangR
使用默认参数,除了settingphenoFinder.args =零
,它会关闭对类似临床数据的检查phenoData
ExpressionSet对象的slot:
results1 <- doppelgangR(testesets, phenoFinder.args=NULL)
这将创建一个class对象DoppelGang
,它有打印、总结和绘图方法。由于大量输出,这里没有显示摘要方法输出:
总结(其中回答)
Plot创建了每个研究内部和之间样本成对相关性的直方图:
Par (mfrow=c(2,2), las=1) plot(results1)
其中一个直方图可以使用图绘制。对论点:
情节(其中回答,阴谋。一对= c(“JapaneseA”、“JapaneseA”))
如果在检查直方图之后,你看到一些可见的异常值没有被捕获,或者非异常值超过了灵敏度阈值,你可以使用参数更改默认灵敏度:
outlierfinder . exr .args = list(bonf. args)prob = 0.5, transFun = atanh, tail = "upper")
默认的0.5是灵敏度和特异性之间合理但任意的权衡,我们发现它经常选择包含重复的数据集对,但通常找不到所有重复的样品。敏感度可以通过改变bonf来提高。概率参数,即。:
results1 <- doppelgangR(testesets, outlierfinder . exr .args = list(bonf. results1)prob = 1.0, transFun = atanh, tail = "upper"))
的doppelgangR ()
的列表作为函数的主参数ExpressionSet
对象。如果你只有矩阵,你可以很容易地把它们转换成ExpressionSet
对象,例如:
mat <- matrix(1:4, ncol=2) library(Biobase) eset <- ExpressionSet(mat) class(eset)
# #[1]“ExpressionSet”# # attr(“包”)# #[1]“Biobase”
的doppelgangR ()
函数检查列表中数据集的所有成对组合ExpressionSet
对象,并且这些数据集对可以使用BPPARAM参数使用多个处理核并行检查。这个功能是从(" BiocParallel ")包中导入的。请看?BiocParallel: BiocParallelParam-class”文档。
results2 <- doppelgangR(testesets, BPPARAM = multicoream (workers = 8))
默认情况下,doppelgangR ()
函数缓存中间结果,以便更快地使用不同的参数重新运行。通过设置参数关闭缓存cache.dir =零
.