我们当然需要命运,需要进行预处理,需要一些潮汐宇宙的细节。
让我们使用来自scRNAseq
[1]。如有必要,安装它通过BiocManager::安装(“scRNAseq”)
.
[1] Risso D, Cole M(2019)。scRNAseq:公共单细胞RNA-Seq数据集的集合.
#我们感兴趣的部分帮助帮助(“scRNAseq-package”,包=“scRNAseq”)% > %repr::repr_html()% > %stringr::str_extract_all(stringr::正则表达式(' < p >数据集。* ?< / p > ",dotall =真正的))% > %unlist()% > %粘贴(崩溃=”)% > %knitr::raw_html()
数据集fluidigm
包含来自Pollen等人(2014)的65个细胞,每个细胞在高覆盖率和低覆盖率下进行测序。
数据集th2
包含96个T辅助细胞,来自Mahata等人(2014)。
数据集艾伦
含有379个来自老鼠视觉皮层的细胞。这是Tasic等人(2016)发表的数据的子集。
379个细胞似乎足以看到一些东西!
## snapshotDate(): 2022-10-24
查看scRNAseq和browseVignettes('scRNAseq')的文档
##从缓存加载
查看scRNAseq和browseVignettes('scRNAseq')的文档
##从缓存加载
查看scRNAseq和browseVignettes('scRNAseq')的文档
##从缓存加载
查看scRNAseq和browseVignettes('scRNAseq')的文档
##从缓存加载
查看scRNAseq和browseVignettes('scRNAseq')的文档
##从缓存加载
查看scRNAseq和browseVignettes('scRNAseq')的文档
##从缓存加载
我们主要讲食物装饰图案在这里。让我们向数据中添加基本信息,并选择要处理的内容。
作为食物
中的原始计数计数
,我们将更准确的RSEM计数重命名为计数
.我们的数据显示ERCC在一个altExp
槽:
rowData(艾伦)$符号< -rownames(艾伦)rowData(艾伦)$EntrezID < -AnnotationDbi::mapIds(org.Mm.eg.db::org.Mm.eg.db,rownames(艾伦)“ENTREZID”,“别名”)
# #
## 'select()'返回1:多个键和列之间的映射
## 'select()'返回1:多个键和列之间的映射
assayNames(艾伦)assayNames(艾伦)= =“rsem_counts”) < -“计数”assayNames(altExp(艾伦,“ERCC”)) (assayNames(altExp(艾伦,“ERCC”))= =“rsem_counts”) < -“计数”艾伦
##类:singlecel实验实验## dim: 20816 379 ##元数据(2):SuppInfo whe_qc ## assays(4): tophat_counts cufflinks_fpkm counts rsem_tpm ## rownames(20816): 0610007P14Rik 0610009B22Rik…Zzef1 Zzz3 ## rowData names(3): Symbol EntrezID Uniprot ## colnames(379): SRR2140028 SRR2140022…SRR2139341 SRR2139336 ## colData names(22): NREADS NALIGNED…的动物。ID passes_qc_checks_s ## reducedDimNames(0): ## mainExpName: endogenous ## altExpNames(1): ERCC
现在我们可以使用它来重新规格化数据。我们将计数
使用峰值大小因子并将其对数化为logcounts
.
##类:singlecel实验实验## dim: 20816 379 ##元数据(2):SuppInfo whe_qc ## assays(5): tophat_counts cufflinks_fpkm counts rsem_tpm logcounts ## rownames(20816): 0610007P14Rik 0610009B22Rik…Zzef1 Zzz3 ## rowData names(3): Symbol EntrezID Uniprot ## colnames(379): SRR2140028 SRR2140022…SRR2139341 SRR2139336 ## colData names(23): NREADS NALIGNED…passes_qc_checks_s sizeFactor ## reducedDimNames(0): ## mainExpName: ## altExpNames(1): ERCC
我们还使用spike-ins更准确地检测高度可变的基因:
我们创建了一个数据子集,其中只包含合理高度可变的基因:
让我们创建一个扩散地图。为了快速得到结果,人们通常首先创建一个PCA,它可以存储在你的SingleCellExperiment
在创建扩散地图或简单地创建隐式使用DiffusionMap(…,n_pcs =
.
然而,即使有更多的主成分来获得一个很好的扩散图,扩散成分和基因之间的紧密空间对应关系也会丢失。
选择的距离度量对你的结果有很大的影响,你至少应该尝试cos和rankcor。
set.seed(1)dms < -c(“欧几里得”,的余弦,“rankcor”)% > %#, l2set_names()% > %地图(~DiffusionMap(allen_hvg距离=.,knn_params =列表(方法=“covertree”)))
在DiffusionMap(allen_hvg, distance = ., knn_params = list(method = ## "covertree"))中警告:你有5000个基因。考虑通过例如n_pcs = 50来加速##计算。在DiffusionMap(allen_hvg, distance = ., knn_params = list(method = ## "covertree"))中警告:你有5000个基因。考虑通过例如n_pcs = 50来加速##计算。在DiffusionMap(allen_hvg, distance = ., knn_params = list(method = ## "covertree"))中警告:你有5000个基因。考虑通过例如n_pcs = 50来加速##计算。
待办事项:宽阔的地块
dms% > %imap(函数(dm,经销)情节(dm,1:2,col_by =“driver_1_s”)+ggtitle(经销))% > %cowplot::plot_grid(plotlist =.,nrow =1)
待办事项:宽阔的地块
如你所见,尽管嵌入完全不同,rankcor和cos扩散图显示了许多相同的驱动基因。
httr::得到(“https://www.uniprot.org/uniprot/”,查询=列表(列=的id、基因注释(组织特异性)',格式=“标签”,查询=rowData(艾伦)$Uniprot (gms$余弦$id (1:6]]% > %unlist()% > %粘贴(崩溃=或')))% > %httr::内容(类型=“文本/标签分隔值”,编码=“utf - 8”,)
# #行:0列:1 # #──列规范────────────────────────────────────────────────────────# #分隔符:" \ t " # #杆(1):{“时间戳”:“2022 - 11 - 01 t21:26:24.666 + 00:00”,“状态”:500年,“错误”:“…## ##ℹ使用' spec() '检索该数据的完整列规范。##ℹ指定列类型或设置' show_col_types = FALSE '来关闭此消息。
## #一个tibble: 0 × 1 ## #…带1个变量:## # {"timestamp":"2022-11-01T21:26:24.666+00:00","status":500,"error":"Internal Server error","message":"" path":"/uniprotkb/columns=id,genes,comment(TISSUE%20SPECIFICITY)&format=tab&query=Q8K2G4%20or%20Q922E6%20or%20Q8QZR0%20or%20Q505Q3%20or% 20or%20Q99KR8%20or% 20or%20P62254%20or%20Q5F239"}