癌症全基因组分析标本是司空见惯,调查人员经常分享或重用在后来的研究标本。重复的表达谱在公共数据库中有关如果未被发现,将会影响一个所谓的“幽灵”效应。doppelgangR包使用批处理校正和孤立点检测的成对表达谱间相关性,准确地识别重复的资料,档案在哪里足够不同的癌症类型。它适用于当nucleotide-level序列数据不可用,甚至是有效的标本重复样品由不同异形微阵列技术,或者通过微阵列和对数转换RNA-seq数据。