内容

1简介

doppelgangR是一个用于在转录组谱数据集内或之间识别重复样本的包。它适用于生物复制通常比技术复制更独特的微阵列和RNA-seq基因表达谱,就像具有“噪声”基因组的癌症类型一样。它适用于每个基因摘要可用但没有完整基因型的情况,这是典型的公共数据库,如基因表达Omnibus。

doppelgangR ()函数以三种不同的方式识别重复项:

这个小插图集中在doppelgänger的“表达式”类型上。

2数据类型

识别doppelgängers是有效的微阵列和对数转换RNA-seq数据,甚至匹配样本已经通过微阵列和RNA-seq分析。

3.案例研究:日本数据集的批量修正

我们加载数据集由Yoshiharaet al。都是精心策划的curatedOvarianData.这些是类的对象ExpressionSet

库(curatedOvarianData)数据(GSE32062.GPL6480_eset)数据(GSE17260_eset)

doppelgangR函数需要的列表ExpressionSet对象作为输入,我们在这里创建:

testesets <- list(japanese ea =GSE32062.)GPL6480_eset Yoshihara2010 = GSE17260_eset)

现在运行doppelgangR使用默认参数,除了settingphenoFinder.args =零,它会关闭对类似临床数据的检查phenoDataExpressionSet对象的slot:

results1 <- doppelgangR(testesets, phenoFinder.args=NULL)

这将创建一个class对象DoppelGang,它有打印、总结和绘图方法。由于大量输出,这里没有显示摘要方法输出:

总结(其中回答)

Plot创建了每个研究内部和之间样本成对相关性的直方图:

Par (mfrow=c(2,2), las=1) plot(results1)
Doppelgängers是根据相似的表达配置文件识别的。垂直的红线表示被标记的样本。

图1:Doppelgängers是根据相似的表达配置文件识别的
垂直的红线表示被标记的样本。

其中一个直方图可以使用图绘制。对论点:

情节(其中回答,阴谋。一对= c(“JapaneseA”、“JapaneseA”))

4重要的选择

4.1变化的敏感性

如果在检查直方图之后,你看到一些可见的异常值没有被捕获,或者非异常值超过了灵敏度阈值,你可以使用参数更改默认灵敏度:

outlierfinder . exr .args = list(bonf. args)prob = 0.5, transFun = atanh, tail = "upper")

默认的0.5是灵敏度和特异性之间合理但任意的权衡,我们发现它经常选择包含重复的数据集对,但通常找不到所有重复的样品。敏感度可以通过改变bonf来提高。概率参数,即。

results1 <- doppelgangR(testesets, outlierfinder . exr .args = list(bonf. results1)prob = 1.0, transFun = atanh, tail = "upper"))

4.2表达式集的使用

doppelgangR ()的列表作为函数的主参数ExpressionSet对象。如果你只有矩阵,你可以很容易地把它们转换成ExpressionSet对象,例如:

mat <- matrix(1:4, ncol=2) library(Biobase) eset <- ExpressionSet(mat) class(eset)
# #[1]“ExpressionSet”# # attr(“包”)# #[1]“Biobase”

4.3并行

doppelgangR ()函数检查列表中数据集的所有成对组合ExpressionSet对象,并且这些数据集对可以使用BPPARAM参数使用多个处理核并行检查。这个功能是从(" BiocParallel ")包中导入的。请看?BiocParallel: BiocParallelParam-class”文档。

results2 <- doppelgangR(testesets, BPPARAM = multicoream (workers = 8))

4.4缓存

默认情况下,doppelgangR ()函数缓存中间结果,以便更快地使用不同的参数重新运行。通过设置参数关闭缓存cache.dir =零