内容

1简介

基因组规模测序实验的全面存档对于多个领域的实质性和方法学进展都是有价值的。

HumanTranscriptomeCompendium软件包提供了与超过180000个测序人类转录组的量化和元数据相互作用的功能。

2获得基因级量化

BiocFileCache用于管理对有关纲目内容的少量元数据集合的访问。默认情况下,htx_load将加载缓存并建立到远程HDF5量化表示的连接。数值数据存放在HDF可伸缩数据服务的实例中http://hsdshdflab.hdfgroup.org

2.1识别单细胞rna测序研究

我们在研究标题中使用粗略的模式匹配来识别单细胞RNA-seq实验

现在我们将确定涉及哪些研究。我们将检查单细胞研究的标题,以评估这种方法的特异性。

3.获得转录水平的量化

此功能在另行通知前不可用。通过设置genesOnly假入htx_load在美国,我们可以获得一份转录水平的简编。请注意,这个版本的样本数量超过了基因版本的两倍。在底层HDF Cloud数组中有两个非预期的列,名称为' X0 '和' X0.1 ',应该忽略它们。

4HumanTranscriptomeCompendium包的资源

HumanTranscriptomeCompendium包的主要目的是

我们将依次解决这些问题。

4.1获取量化

以下4.4.1htx_load

htx_load有三个参数:remotePath缓存,genesOnly

genesOnly默认为TRUE。如果为TRUE,将使用的HDF阵列由基因级量化组成;否则,所使用的阵列将包括基于Gencode V27模型的转录水平量化。

remotePath是rds格式的rangedsummarizeexperiment实例的路径,该实例已准备好包含对量化的HSDS表示的DelayedArray引用。所使用的具体引用取决于的设置genesOnly.默认值当前引用AWS S3桶来检索RDS。

缓存的实例。BiocFileCache,在那里储存和按需要检索RDS。

一个典型的用法是HTX = htx_load()它有效地建立了htx以获得基因水平的量化。发出这样的命令后,试验(htx [G S])是DelayedMatrix的特征G在样品年代.如果G年代太长,HSDS可能会返回错误。大请求的系统分块是未来发展的一个课题。

4.1.2htx_query_by_study_accession

htx_query_by_study_accession有一个强制参数,study_accessions.此函数使用htx_load用DelayedArray分析数据准备一个summarizeexperiment,样本仅限于字符向量参数中列出的研究study_accessions.此函数的可选参数被传递给htx_load

4.1.3htx_app

htx_app没有争论。它会启动一个闪亮的应用程序,按规模、研究登录号和研究标题列出研究。用户可以使用正则表达式搜索标题,并可以要求检索多个研究。这些研究以总结实验的形式返回。一个更高级的查询/检索应用程序的原型在vjcitn.shinyapps.io/cancer9k。cancer9k应用程序在更丰富的样本级属性集合上提供了类似“搜索引擎”的功能。请参阅vjcitn/htxapp中的软件包,以获得与cancer9k相关的源代码。

4.2基本元数据

本小节中描述的许多功能都使用了github.com/seandavi/SRAdbV2中管理的SRAdbV2包。如果没有安装此包,所描述的一些功能将失败。

4.2.1bigrnaFiles

这是一个长度为3829708的向量。它为BigRNA项目中开发的所有相关三文鱼输出文件提供了相对路径。

4.2.2experTable, studTable

这是一个294174行6列的data.frame。它是截至2018年6月28日通过SRAdbV2检索元数据的所有SRA实验的记录。studTable提供每个实验的研究标题。

4.2.3sampleAtts ()

该函数使用SRAdbV2实时获取研究级元数据组件样本。属性'为选定的SRA研究登录号。

4.2.4tx2gene_gencode27 ()

这个函数读取tx2gene.gencode.v27.csvtximportData

4.2.5uniqueAcc_120518

一个186011个唯一实验接入号的字符向量。

4.2.6HumanTranscriptomeCompendium.colnames

一个包含181136个字符串的向量,给出转录水平量化的列名。

4.2.7addRD ()

的结果中添加rowData组件htx_load(,……,genesOnly =真正的)给出每一行可用的基因类型、基因id、基因名称和哈瓦那基因。

4.3验证工具

HumanTranscriptomeCompendium的生成相当复杂。有一个鲑鱼输出的持久存储库

http://bigrna.cancerdatasci.org/results/human/27/ * / aux_info / meta_info.json

其中实验增加值代替*。procExpToGene取一个实验编号,并在表单中为用户实现鲑鱼量化

> str(nn) List of 4 $ abundance: num [1:58288, 1] 22.8668 0.0286 32.8925 2.9392 4.1314 ... ..- attr(*, "dimnames")= 2的列表.. ..$:chr [1:58288] "ENSG00000000003.14" "ENSG00000000005.5" "ENSG00000000419.12" "ENSG00000000457.13" ... .. ..$ : NULL $ counts : num [1:58288, 1] 2427 2 1744 634 662 ... ..- attr(*, "dimnames")=List of 2 .. ..$ : chr [1:58288] "ENSG00000000003.14" "ENSG00000000005.5" "ENSG00000000419.12" "ENSG00000000457.13" ... .. ..$ : NULL $ length : num [1:58288, 1] 1962 1294 980 3984 2964 ... ..- attr(*, "dimnames")=List of 2 .. ..$ : chr [1:58288] "ENSG00000000003.14" "ENSG00000000005.5" "ENSG00000000419.12" "ENSG00000000457.13" ... .. ..$ : NULL $ countsFromAbundance: chr "lengthScaledTPM"

这可以用来检查HSDS中数据图像的准确性。

5关于动机的评论

我们主要关注的是提供统一合理有效的统一预处理SRA RNA-seq研究。量化是在HDF可伸缩数据服务的实例中提供的。的Biocpkg(“restfulSE”)而且Biocpkg(“rhdf5client”)包允许通过熟悉的基于summarizeexperimental的编程来查询服务。

在没有准确元数据的情况下,量化并不是那么有用(尽管在没有元数据的情况下,大规模的无监督学习过程当然是可行的)。因此,我们花了很多精力来简化样本级元数据的获取和绑定。

下面是SRA贡献的元数据模型的草图。

元数据模型

元数据模型

”样本。属性“可以包含比描述的更多(或更少)的信息。事实上,在一些研究中,似乎使用了稀疏设置。

稀疏的属性

稀疏的属性

我们希望非常容易地使用Sean Davis为SRA元数据设置的swagger API。

时髦的看

时髦的看

昂首阔步SRAdbV2

昂首阔步SRAdbV2

然而,实时查询可能很繁琐和/或脆弱。因此,我们对样本进行了快照。所有研究的属性组件,将它们序列化为csv,使用ssrch的parseDoc实用程序索引它们,生成散列环境,以支持使用selectize.js功能的交互式搜索。这些细节是在一个方案中制定的。