用水晶球占卜方法的概述

将汤斯

2023年4月25日,

基本工作流程

suppressPackageStartupMessages(库(SingleCellExperiment))库(ggplot2);theme_set (theme_bw())库(DuoClustering2018)需要(用水晶球占卜)

我们说明用水晶球占卜的基本功能使用合成的混合四种已知的细胞类型DuoClustering2018包。

南加州爱迪生公司< -sce_full_Zhengmix4eq ()
# #看到? DuoClustering2018 browseVignettes (DuoClustering2018)文档
# #从缓存加载
# m <计数(sce) # UMI计数#厘米< -as.data.frame (colData (sce))

特征选择与越轨

首先,我们将排名基于异常的基因,来帮助识别生物种类最丰富的基因。实际偏差值构成了rowData SingleCellExperiment对象的存储在。

南加州爱迪生公司< -devianceFeatureSelection (sce检测=“计数”,排序= TRUE)情节(rowData (sce) binomial_deviance美元,类型=“l”, xlab =“排名基因”,ylab =“二项异常”,主要=“与异常特征选择”)abline (v = 2000, lty = 2,坳=“红色”)

unnamed-chunk-3阴谋的一部分

我们可以看到异常之后急剧下降约2000个基因。其余的基因可能不是信息所以我们丢弃他们加快下游分析。

sce2 <南加州爱迪生公司(1:1000,)

降维与GLM-PCA

GLM-PCA可以减少UMI计数的维度促进可视化和/或聚类不需要任何正常化。

set.seed (101) sce2 < -GLMPCA (sce2 2测定=“计数”)符合<元数据(sce2)美元glmpca pd < -cbind (as.data.frame (colData (sce2)),适合美元因素)ggplot (pd, aes (x = dim1, y = dim2,颜色= phenoid)) + geom_point(大小= 8)+ ggtitle (“GLM-PCA应用于高异常基因”)

unnamed-chunk-5阴谋的一部分

之间的分离b细胞、单核细胞和t细胞是明确的。天真的细胞毒性t细胞和监管之间的分离是不太清楚。增加潜在的因素的数量从2到10可以提高生物集群的决议,但在较慢的成本计算。

降维与零残差

GLM-PCA可以为大型数据集是缓慢的。快速近似是适合一个空模型常数表达式的每个基因在细胞,然后配合标准PCA皮尔逊或异常从零模型残差。

南加州爱迪生公司< -nullResiduals (sce检测=“计数”,类型=“异常”)sce < -nullResiduals (sce检测=“计数”,类型=“皮尔森”)sce2 <南加州爱迪生公司(1:1000,)#只使用高异常基因pca <函数(Y, L = 2,中心= TRUE,规模= TRUE){# =行假定特性,观察=关口res < -prcomp (as.matrix (t (Y)),中心=中心规模。=规模等级。= L)因素< -as.data.frame (res x美元)colnames(因素)< -paste0(“暗淡”,1:L)因素}pca_d < PCA(化验(sce2“binomial_deviance_residuals”)) pca_d resid_type < -“deviance_residuals pca_p < PCA(化验(sce2“binomial_pearson_residuals”)) pca_p美元resid_type < -“pearson_residuals厘米< -as.data.frame (colData (sce2)) pd < -rbind (cbind(厘米,pca_d) cbind(厘米,pca_p)) ggplot (pd, aes (x = dim1, y = dim2,颜色= phenoid)) + geom_point () + facet_wrap (~ resid_type,鳞片=“免费”,nrow = 2) + ggtitle(“主成分分析应用于零残差高异常基因”)

unnamed-chunk-6阴谋的一部分

零残差方法仍然抓住了大部分的生物结构,但集群之间的分辨率降低和有更多的噪音。