在分析scRNA-seq数据并不少见执行两个给定的条件出现在数据之间的比较。对于每一个细胞类型识别,这些条件可能有不同的配置文件。的condcomp计划旨在帮助这些差异的描述一个简单和直接的方式。
对于这个小插图,我们将使用软件的数据单片眼镜
这是可以通过吗HSMMSingleCell
包中。数据相关信息在一个实验主要人类骨骼肌成肌细胞(软件)扩大高促分裂原条件下分化(通用),然后通过切换low-mitogen媒体(DM)。RNA-Seq图书馆是测序的几百个细胞接管时间进程(0、24、48、72小时)serum-induced分化。
我们将使用修拉计划执行的分析数据。
包可以安装使用下面的块。
BiocManager::安装(“condcomp”)
首先我们加载数据,封装在一个修对象。我们将只使用只有乘以24和48在我们的示例中那样将两个行使分析。
库(condcomp)库(单片眼镜)图书馆(HSMMSingleCell)图书馆(修)#加载数据集软件< - load_HSMM() #修封装数据对象hsmm < - exportCDS (hsmm export_to =“修”)#识别设置为“小时”软件< - SetAllIdent(软件,id =“小时”)#子集修对象只有细胞从24和48小时hsmm < - SubsetData(软件,识别。使用= c(“24”、“48”)) #商店这个识别作为一个“状态”列在“元。数据的软件< - StashIdent (hsmm save.name =“条件”)
接下来我们会发现高度可变的基因数据并使用它们来构建PCA空间。最后,使用修我们集群数据的功能FindClusters
和项目数据到t-SNE空间可视化。
的决议
参数的FindCluster
设置默认值的一到两个,为了增加集群的数量给出的算法。的困惑
参数默认值的减少30到15,这个数据没有很多数据点。
软件< - FindVariableGenes(软件、做。情节= FALSE)软件< - RunPCA(软件)软件< - FindClusters(软件,减少。type = " pca”,变暗。使用= 1:5,分辨率= 2)软件< - StashIdent (hsmm save.name =“集群”)软件< - RunTSNE(软件、还原。使用“pca”=,昏暗的明灯。使用= 1:5。快= TRUE,困惑= 15)TSNEPlot(软件、组。=“条件”,做的。返回= TRUE, pt.size = 0.5)
TSNEPlot(软件做。返回= TRUE, pt.size = 0.5,。标签= TRUE,标签。大小= 5)
吧台下面的图显示了在每个条件分组数量的细胞集群。
软件< - SetAllIdent(软件、“集群”)计数< - as.data.frame(表(hsmm@meta.data美元条件,hsmm@ident))的名字(计数)< - c(“条件”、“集群”,“细胞”)ggplot (data =计数,aes (x =集群,y =细胞,填补=条件))+ geom_bar (stat =“身份”,位置= position_dodge ()) + geom_text (aes(标签=细胞),vjust = 1.6,颜色=“黑人”,位置= position_dodge(0.9),大小= 2.5)
集群设置后,我们现在可以使用condcomp
为了了解每个集群之间的异质性条件。理想情况下,这些集群将注释与细胞类型,尽管这并不减少提供的分析的有效性condcomp
。
的每一列的描述产生的数据帧,请参考手册页condcomp
。
#计算欧几里得距离矩阵dmatrix < -区域(GetDimReduction(软件、还原。type = " pca "槽=“cell.embeddings”),方法=“欧几里得”)dmatrix < - as.matrix (dmatrix)软件< - SetAllIdent(软件,“集群”)ccomp < condcomp (hsmm@ident hsmm@meta。数据条件下,美元dmatrix, n = 1000) #相关的计算假定值调整,考虑到计算方法#(参见手册condcomp) ccomp pval_adj < - p。调整(ccomp pval美元,方法=“bonferroni”) knitr:: kable (ccomp)
24 _perc | 48 _perc | 24 _ratio | 48 _ratio | true_sil | zscore | pval | 位差 | pval_adj | |
---|---|---|---|---|---|---|---|---|---|
0 | 0.2666667 | 0.7333333 | 0.3636364 | 2.750000 | 0.0241758 | 0.5215740 | 0.271 | 相同 | 1.000 |
1 | 0.8928571 | 0.1071429 | 8.3333333 | 0.120000 | -0.0328375 | -0.4959992 | 0.652 | 相同 | 1.000 |
2 | 0.4814815 | 0.5185185 | 0.9285714 | 1.076923 | 0.0862150 | 5.8358145 | 0.000 | Diff | 0.000 |
3 | 0.0833333 | 0.9166667 | 0.0909091 | 11.000000 | 0.0115130 | 0.2843489 | 0.381 | 相同 | 1.000 |
4 | 0.4000000 | 0.6000000 | 0.6666667 | 1.500000 | 0.0732389 | 2.6268979 | 0.011 | Diff | 0.077 |
5 | 0.8333333 | 0.1666667 | 5.0000000 | 0.200000 | 0.2541525 | 3.3216138 | 0.001 | Diff | 0.007 |
6 | 0.5000000 | 0.5000000 | 1.0000000 | 1.000000 | 0.0052120 | 0.0024497 | 0.307 | 相同 | 1.000 |
接下来我们阴谋的结果分析。我们可以看到,6组,尽管1:1比例条件下,z分数低,这表明低表示组内异质性,尽管看似异质性源于条件比。相比之下,组2,接近1:1比例条件下,z分数高,加强源于条件比明显的异质性。
组的条件之一是更主要倾向于z得分较低。组观察到这个条件优势但有相当高的z分数可能值得研究。这可能表明的确表现不佳在集群或一个有趣的组织必须更加细致的分析。
我们可以看到,基于差的方法是显示相同的一些组织。尽管这些信息不应被视为单独的手册页(见condcomp
差的计算的详细信息):它是异质性的指标之一。其他指标:之间的比例条件下,z分数,假定值。最后出现在前面的表而不是下面的情节。在这个例子中,很明显,所有的z分数较低的组织也有一个差的“相同”的价值。
这个数据有些假定值完全或接近于零(即使在校正),标明这些组织的相当大的异质性。相反假定值高表示异质性较低。
注意,参数n
应设置相应的行动。这个值越大,结果越可靠的执行时间的增加。在这个描述中,我们使用了dafault值为1000,但这取决于对象的数量(细胞)的数据集,应该使用更大的价值。如果不确定,设置n = 10000
应该是一个比较合理的值为典型的单个细胞的数据集。
condcompPlot (ccomp主要= " Intra-cluster之间的异质性条件”)
这个情节的主要目的是协助异构组的检测条件。这些组织可以在微分分析有价值的信息来源和组分析。
这个情节更加强大,如果数据注释。例如,我们可以执行condcomp
在确定细胞类型。