检测与命运相关的基因3

单细胞rna测序数据和基因相关性

我们当然需要命运,需要进行预处理,需要一些潮汐宇宙的细节。

数据

让我们使用来自scRNAseq[1]。如有必要,安装它通过BiocManager::安装(“scRNAseq”)

[1] Risso D, Cole M(2019)。scRNAseq:公共单细胞RNA-Seq数据集的集合

数据集fluidigm包含来自Pollen等人(2014)的65个细胞,每个细胞在高覆盖率和低覆盖率下进行测序。

数据集th2包含96个T辅助细胞,来自Mahata等人(2014)。

数据集艾伦含有379个来自老鼠视觉皮层的细胞。这是Tasic等人(2016)发表的数据的子集。

379个细胞似乎足以看到一些东西!

## snapshotDate(): 2022-10-24
查看scRNAseq和browseVignettes('scRNAseq')的文档
##从缓存加载
查看scRNAseq和browseVignettes('scRNAseq')的文档
##从缓存加载
查看scRNAseq和browseVignettes('scRNAseq')的文档
##从缓存加载
查看scRNAseq和browseVignettes('scRNAseq')的文档
##从缓存加载
查看scRNAseq和browseVignettes('scRNAseq')的文档
##从缓存加载
查看scRNAseq和browseVignettes('scRNAseq')的文档
##从缓存加载

预处理

我们主要讲食物装饰图案在这里。让我们向数据中添加基本信息,并选择要处理的内容。

作为食物中的原始计数计数,我们将更准确的RSEM计数重命名为计数.我们的数据显示ERCC在一个altExp槽:

# #
## 'select()'返回1:多个键和列之间的映射
## 'select()'返回1:多个键和列之间的映射
##类:singlecel实验实验## dim: 20816 379 ##元数据(2):SuppInfo whe_qc ## assays(4): tophat_counts cufflinks_fpkm counts rsem_tpm ## rownames(20816): 0610007P14Rik 0610009B22Rik…Zzef1 Zzz3 ## rowData names(3): Symbol EntrezID Uniprot ## colnames(379): SRR2140028 SRR2140022…SRR2139341 SRR2139336 ## colData names(22): NREADS NALIGNED…的动物。ID passes_qc_checks_s ## reducedDimNames(0): ## mainExpName: endogenous ## altExpNames(1): ERCC

现在我们可以使用它来重新规格化数据。我们将计数使用峰值大小因子并将其对数化为logcounts

##类:singlecel实验实验## dim: 20816 379 ##元数据(2):SuppInfo whe_qc ## assays(5): tophat_counts cufflinks_fpkm counts rsem_tpm logcounts ## rownames(20816): 0610007P14Rik 0610009B22Rik…Zzef1 Zzz3 ## rowData names(3): Symbol EntrezID Uniprot ## colnames(379): SRR2140028 SRR2140022…SRR2139341 SRR2139336 ## colData names(23): NREADS NALIGNED…passes_qc_checks_s sizeFactor ## reducedDimNames(0): ## mainExpName: ## altExpNames(1): ERCC

我们还使用spike-ins更准确地检测高度可变的基因:

我们创建了一个数据子集,其中只包含合理高度可变的基因:

让我们创建一个扩散地图。为了快速得到结果,人们通常首先创建一个PCA,它可以存储在你的SingleCellExperiment在创建扩散地图或简单地创建隐式使用DiffusionMap(…,n_pcs = )

然而,即使有更多的主成分来获得一个很好的扩散图,扩散成分和基因之间的紧密空间对应关系也会丢失。

选择的距离度量对你的结果有很大的影响,你至少应该尝试cos和rankcor。

在DiffusionMap(allen_hvg, distance = ., knn_params = list(method = ## "covertree"))中警告:你有5000个基因。考虑通过例如n_pcs = 50来加速##计算。在DiffusionMap(allen_hvg, distance = ., knn_params = list(method = ## "covertree"))中警告:你有5000个基因。考虑通过例如n_pcs = 50来加速##计算。在DiffusionMap(allen_hvg, distance = ., knn_params = list(method = ## "covertree"))中警告:你有5000个基因。考虑通过例如n_pcs = 50来加速##计算。

待办事项:宽阔的地块

待办事项:宽阔的地块

如你所见,尽管嵌入完全不同,rankcor和cos扩散图显示了许多相同的驱动基因。

# #行:0列:1 # #──列规范────────────────────────────────────────────────────────# #分隔符:" \ t " # #杆(1):{“时间戳”:“2022 - 11 - 01 t21:26:24.666 + 00:00”,“状态”:500年,“错误”:“…## ##ℹ使用' spec() '检索该数据的完整列规范。##ℹ指定列类型或设置' show_col_types = FALSE '来关闭此消息。
## #一个tibble: 0 × 1 ## #…带1个变量:## # {"timestamp":"2022-11-01T21:26:24.666+00:00","status":500,"error":"Internal Server error","message":"" path":"/uniprotkb/columns=id,genes,comment(TISSUE%20SPECIFICITY)&format=tab&query=Q8K2G4%20or%20Q922E6%20or%20Q8QZR0%20or%20Q505Q3%20or% 20or%20Q99KR8%20or% 20or%20P62254%20or%20Q5F239"}