1metaseqR2管道的简单、灵活和可重用注释

在使用metaseqR的第一个版本时,必须将注释嵌入到基因/外显子/3 ' UTR计数中,或者从BAM文件开始时下载并动态构建所需的注释。虽然计数和基因模型构建结果可以(而且仍然可以)保存并在其他分析参数改变(例如统计算法)时重新使用,但如果不重新运行整个管道并重新下载注释,就无法轻松地向现有数据集中添加新数据。最重要的是,很多时候,主Ensembl服务器(在使用Ensembl注释时)不能很好地响应biomaRt调用,因此整个管道可能会暂停,直到服务器恢复。

metaseqR使用的注释的另一个主要问题是,metaseqR没有提供直接的方法来归档和版本特定分析所使用的注释,并由用户负责该级别的可再现性。此外,对于用户来说,没有直接的方法来插件自己的注释元素(例如以GTF文件的形式),并以与metaseqR支持的标准注释相同的方式使用它,例如在分析来自不太常被研究的生物(如昆虫)的数据时。插入自己的注释是可能的,但通常是一个痛苦的过程,现在变得非常容易。

metaseqR2的注释数据库构建器纠正了上述情况。的buildAnnotationDatabase功能应该与需要在本地工作的生物体一起运行一次,然后就完成了!当然,您可以通过添加和删除特定的注释来管理您的数据库(您甚至可以使用SQLite浏览器,尽管不建议使用,因为数据库结构相当简单)。此外,您可以将metaseqR2注释数据库和管理机制用于任何其他类型的分析,在这些类型的分析中,您需要一个简单的以制表符分隔的注释文件,只需花费很少的精力即可获得。

2支持生物

支持以下生物(基本上是基因组版本)进行自动数据库构建:

  • 人类(智人)基因组版本hg38
  • 人类(智人)基因组版本hg19
  • 人类(智人)基因组版本hg18
  • 鼠标(亩骶)基因组版本mm10
  • 鼠标(亩骶)基因组版本mm9
  • 大鼠(鼠形)基因组版本rn6
  • 大鼠(鼠形)基因组版本rn5
  • 果蝇(黑腹果蝇)基因组版本德国马克
  • 果蝇(黑腹果蝇)基因组版本dm3
  • 斑马鱼(鲐鱼类)基因组版本danRer7
  • 斑马鱼(鲐鱼类)基因组版本danRer10
  • 斑马鱼(鲐鱼类)基因组版本danRer11
  • 黑猩猩(黑猩猩)基因组版本panTro4
  • 黑猩猩(黑猩猩)基因组版本panTro5
  • 猪(野猪)基因组版本susScr3
  • 猪(野猪)基因组版本susScr11
  • 马(科仕cabalus)基因组版本equCab2
  • 拟南芥(Arabidobsis芥)基因组版本TAIR10

3.使用本地数据库

3.1安装metaseqR2

安装metaseqR2包,输入“R”,然后输入:

如果(!requireNamespace("BiocManager", quiet = TRUE)) install.packages("BiocManager")

3.2设置数据库

默认情况下,数据库文件将写入执行(包=“metaseqR2”)目录中。属性可以为其指定另一个首选目的地db参数,但如果这样做,则必须提供localDb参数指向您为执行的每个metaseqr2调用创建的SQLite数据库文件,否则,管道将实时下载并使用注释。

在这个小插图中,我们将构建一个仅包含鼠标的最小数据库mm10基因组版本来自Ensembl。数据库将构建在会话内的临时目录中tempdir ()

重要提示:作为注释构建函数所使用的肯特用于从RefSeq和UCSC创建3'UTR注释的实用程序,后者不能在Windows中构建。因此,建议要么在Linux系统中构建注释数据库,要么使用我们预先构建的数据库。

库(metaseqR2) buildDir < - file.path (tempdir(),“test_anndb”)dir.create (buildDir) #的位置自定义数据库myDb <——file.path (buildDir, testann.sqlite) #因为我们使用的是运用,我们也可以要求一个版本生物< - <列表(mm10 = 100)来源——ifelse (.Platform OS.type美元= =“unix c(“运用”、“refseq”),“运用”)#如果例子不是运行在多核系统中,忽略rc buildAnnotationDatabase(生物来源,forceDownload = FALSE, db = myDb rc = 0.5)
##打开metaseqR2 SQLite数据库/tmp/RtmpobJYsh/test_anndb/testann.sqlite
从ensembl中检索mm10基因组信息
从集成版本100中检索mm10的基因注释
使用Ensembl主机https://apr2020.archive.ensembl.org
##从集成版本100检索mm10的文本注释
使用Ensembl主机https://apr2020.archive.ensembl.org
##合并集成100版本mm10的文本
从集成版本100中检索mm10的3' UTR注释
使用Ensembl主机https://apr2020.archive.ensembl.org
从集成版本100中合并mm10的基因3' UTRs
从集成版本100中合并mm10的转录3' utr
从集成版本100检索mm10的外显子注释
使用Ensembl主机https://apr2020.archive.ensembl.org
从集成版本100检索mm10的扩展外显子注释
使用Ensembl主机https://apr2020.archive.ensembl.org
从ensembl版本100中合并mm10的外显子

3.3使用数据库

现在,有了一个小型数据库,让我们检索一些数据。请记住,由于构建的数据库不在默认位置,因此我们需要在每个数据检索函数中传递数据库文件。作为检索注释农庄对象。

#装载基于基因体坐标的标准注释基因<- loadAnnotation(genome="mm10",refdb="ensembl",level="gene",type="gene", db=myDb)基因
与55364范围和4 # #农庄对象元数据列:# # seqnames范围链| gene_id # # < Rle > < IRanges > < Rle > | <人物> # # ENSMUSG00000102693 chr1 3073253 - 3073253 + | ENSMUSG00000102693 # # ENSMUSG00000064842 chr1 3102016 - 3102016 + | ENSMUSG00000064842 # # ENSMUSG00000051951 chr1 3205901 - 3671498 | ENSMUSG00000051951 # # ENSMUSG00000102851 chr1 3252757 - 3252757 + | ENSMUSG00000102851 # # ENSMUSG00000103377 chr1 3365731 - 3368549 | ENSMUSG00000103377  ## ... ... ... ... . ...# # ENSMUSG00000095366 chrY 90752427 - 90755467 | ENSMUSG00000095366 # # ENSMUSG00000095134 chrY 90753057 - 90753057 + | ENSMUSG00000095134 # # ENSMUSG00000096768 chrY 90784738 - 90784738 + | ENSMUSG00000096768 # # ENSMUSG00000099871 chrY 90837413 - 90837413 + | ENSMUSG00000099871 # # ENSMUSG00000096850 chrY 90838869 - 90839177 | ENSMUSG00000096850 # # gc_content gene_name生物型# # <数字> <人物> <人物> # # ENSMUSG00000102693 34.21 4933401 j01rik TEC # # ENSMUSG00000064842 36.36 Gm26206核内小rna # #ENSMUSG00000051951 38.51 Xkr4 protein_coding ## ENSMUSG00000102851 39.79 Gm18956 processed_pseudogene ## ENSMUSG00000103377 40.79 Gm37180 TEC ## ... ... ... ...ENSMUSG00000095366 41.37 Gm21860 lincRNA ## ENSMUSG00000095134 46.85 Mid1-ps1 unprocessed_pseudogene ## ENSMUSG00000096768 46.16 Gm47283 lincRNA ## ENSMUSG00000099871 43.39 Gm21742 unprocessed_pseudogene ## ENSMUSG00000096850 48.87 Gm21748 protein_coding ## ------- seqinfo: 21个序列来自mm10基因组
#装载基于3' UTR坐标的标准注释uts <- loadAnnotation(genome="mm10",refdb="ensembl",level="gene",type=" UTR ", db=myDb) uts
与228087范围和4 # #农庄对象元数据列:# # seqnames范围链| transcript_id # # < Rle > < IRanges > < Rle > | <人物> # # ENSMUST00000193812 chr1 3074323 - 3074323 + | ENSMUST00000193812 # # ENSMUST00000082908 chr1 3102126 - 3102126 + | ENSMUST00000082908 # # ENSMUST00000162897 chr1 3205652 - 3205900 | ENSMUST00000162897 # # ENSMUST00000159265 chr1 3206274 - 3206522 | ENSMUST00000159265 # # ENSMUST00000070533 chr1 3214233 - 3214481 | ENSMUST00000070533  ## ... ... ... ... . ...# # ENSMUST00000177591 chrY 90816465 - 90816465 + | ENSMUST00000177591 # # ENSMUST00000179077 chrY 90816465 - 90816465 + | ENSMUST00000179077 # # ENSMUST00000238471 chrY 90816466 - 90816466 + | ENSMUST00000238471 # # ENSMUST00000179623 chrY 90838620 - 90838868 | ENSMUST00000179623 # # ENSMUST00000189352 chrY 90844041 - 90844041 + | ENSMUST00000189352 # # gene_id gene_name生物型# # <人物> <人物> <人物> # # ENSMUST00000193812 ENSMUSG00000102693 4933401 j01rik TEC # # ENSMUST00000082908ENSMUSG00000064842 Gm26206 snRNA ## ENSMUST00000162897 ENSMUSG00000051951 Xkr4 protein_coding ## ENSMUST00000159265 ENSMUSG00000051951 Xkr4 protein_coding ## ENSMUST00000070533 ENSMUSG00000051951 Xkr4 protein_coding ## ... ... ... ...ENSMUST00000179077 ENSMUSG00000096768 Gm47283 lincRNA ## ENSMUST00000238471 ENSMUSG00000096768 Gm47283 lincRNA ## ENSMUST00000179623 ENSMUSG00000096850 Gm21748 protein_coding ## ENSMUST00000189352 ENSMUSG00000099871 Gm21742 unprocessed_pseudogene ## ------- # seqinfo: 21个来自mm10基因组的序列
#装载基于RNA-Seq分析的汇总外显子注释sumEx <- loadAnnotation(genome="mm10",refdb="ensembl",level="gene",type="exon", summaris= TRUE,db=myDb) sumEx
与291497范围和4 # #农庄对象元数据列:# # seqnames范围链| # # < Rle > < IRanges > < Rle > | # # ENSMUSG00000102693_MEX_1 chr1 3073253 - 3073253 + | # # ENSMUSG00000064842_MEX_1 chr1 3102016 - 3102016 + | # # ENSMUSG00000051951_MEX_1 chr1 3205901 - 3207317 | # # ENSMUSG00000051951_MEX_2 chr1 3213439 - 3216968 | # # ENSMUSG00000102851_MEX_1 chr1 3252757 - 3252757  + | ## ... ... ... ... .ENSMUSG00000096850_MEX_1 chrY 90838869-90839177 - | ## ENSMUSG00000099871_MEX_2 chrY 90841657-90841805 + | ## ENSMUSG00000099871_MEX_3 chrY 90842898-90843025 + | ## ENSMUSG00000099871_MEX_4 chrY 90843878-90844040 + | ## exon_id gene_id ## <字符> <字符> ## ENSMUSG00000102693_MEX_1 ENSMUSG00000102693_M. #Ensmusg00000102693 ## ensmusg00000064842_mex_1 ensmusg00000064842_m ..Ensmusg00000064842 ## ensmusg00000051951_mex_1 ensmusg00000051951_m ..Ensmusg00000051951 ## ensmusg00000051951_mex_2 ensmusg00000051951_m ..Ensmusg00000051951 ## ensmusg00000102851_mex_1 ensmusg00000102851_m ..Ensmusg00000102851 ## ... ... ...ensmusg00000099871_mex_1 ensmusg00000099871_m ..Ensmusg00000099871 ## ensmusg00000096850_mex_1 ensmusg00000096850_m ..Ensmusg00000096850 ## ensmusg00000099871_mex_2 ensmusg00000099871_m .. ENSMUSG00000099871 ## ENSMUSG00000099871_MEX_3 ENSMUSG00000099871_M.. ENSMUSG00000099871 ## ENSMUSG00000099871_MEX_4 ENSMUSG00000099871_M.. ENSMUSG00000099871 ## gene_name biotype ##   ## ENSMUSG00000102693_MEX_1 4933401J01Rik TEC ## ENSMUSG00000064842_MEX_1 Gm26206 snRNA ## ENSMUSG00000051951_MEX_1 Xkr4 protein_coding ## ENSMUSG00000051951_MEX_2 Xkr4 protein_coding ## ENSMUSG00000102851_MEX_1 Gm18956 processed_pseudogene ## ... ... ... ## ENSMUSG00000099871_MEX_1 Gm21742 unprocessed_pseudogene ## ENSMUSG00000096850_MEX_1 Gm21748 protein_coding ## ENSMUSG00000099871_MEX_2 Gm21742 unprocessed_pseudogene ## ENSMUSG00000099871_MEX_3 Gm21742 unprocessed_pseudogene ## ENSMUSG00000099871_MEX_4 Gm21742 unprocessed_pseudogene ## ------- ## seqinfo: 21 sequences from mm10 genome
#装载基于基因体坐标的标准注释if (.Platform$OS.type=="unix") {refGenes <- loadAnnotation(genome="mm10",refdb=" RefSeq ",level="gene", type="gene",db=myDb) refGenes}
##从refseq获得mm10的最新注释
从refseq中检索mm10的基因组信息
从refseq中检索mm10的最新基因注释
##加载所需的命名空间:RMySQL
##将注释转换为GenomicRanges对象…
## ##附加包:“Biostrings”
下面的对象从'package:base'屏蔽:## ## strsplit
##获取DNA序列…
##获取GC内容…
与23471范围和4 # #农庄对象元数据列:# # seqnames范围链| gene_id gc_content # # < Rle > < IRanges > < Rle > | <人物> <数字> # # NM_001011874 chr1 3214481 - 3671498 | NM_001011874 38.56 # # NM_001370921 chr1 4119865 - 4360303 | NM_001370921 38.35 # # NM_011441 chr1 4490927 - 4497354 | NM_011441 49.75 # # NM_001177658 chr1 4773199 - 4785726 | NM_001177658 42.59 # # NM_008866 chr1 4807822 - 4807822 + | NM_008866 40.99  ## ... ... ... ... . ... ...chrY 67339048-67340047 - | NM_001160135 43.50 ## NM_001037748 chrY 77073913-77076246 - | NM_001160144 39.85 ## NR_137283 chrY 90751139-90755050 - | NR_137283 41.51 ## NR_137282 chrY 90785441-90816465 + | NR_137282 46.22 ##基因生物类型## <字符> <字符> ## NM_001011874 Xkr4 NA ## Rp1 NA ## NM_011441 Sox17 NA ## NM_001177658 Mrpl15 NA ## NM_008866 lypl1 NA ## ... ... ...来自mm10基因组的21个序列(21个圆形)

或者作为数据帧,如果你喜欢使用asdf = TRUE.但是数据帧不包含元数据Seqinfo用于任何后续验证:

#装载基于基因体坐标的标准注释基因<- loadAnnotation(genome="mm10",refdb="ensembl",level="gene",type="gene", db=myDb,asdf=TRUE) head(基因)
# #染色体开始结束gene_id gc_content链gene_name # # 1 chr1 3073253 3074322 ENSMUSG00000102693 34.21 + 3074322 j01rik # # 2 chr1 3102016 3102125 ENSMUSG00000064842 36.36 + Gm26206 # # 3 chr1 3205901 3671498 ENSMUSG00000051951 38.51 - Xkr4 # # 4 chr1 3252757 3253236 ENSMUSG00000102851 39.79 + Gm18956 # # 5 chr1 3365731 3368549 ENSMUSG00000103377 40.79 - 6 chr1 Gm37180 # # 3375556 3377788 ENSMUSG00000104017 36.99 - Gm37363 # # 1 # #生物型TEC # # 2核内小rna # # 3 protein_coding # # 4processed_pseudogene ## 5 TEC ## 6 TEC

3.4添加自定义注释

除了受支持的组织和数据库之外,还可以添加自定义注释。这样的注释可以是:

  • 无支撑的生物(如昆虫或其他哺乳动物,如狗)
  • 对现有/支持的注释所做的修改或进一步管理
  • 一种被支持的生物,但来源不同
  • 提供的注释不充分的任何其他情况

这可以通过使用GTF文件,以及一些必须提供的简单元数据,以便正确导入到注释数据库。可以通过使用buildCustomAnnotation函数。有关所需元数据的详细信息可以在函数的帮助页中找到。

重要提示:请注意,Windows不支持直接从UCSC (UCSC SQL数据库转储)导入自定义基因组注释,因为该过程涉及使用genePredToGtf这在Windows上是不可用的。

我们来举几个例子。第一个是UCSC对埃博拉病毒的自定义注释:

#设置一个临时目录来下载文件等customDir <- file.path(tempdir(),"test_custom") dir.create(customDir) #从GenePred转换到GTF -仅Unix/Linux !如果(.Platform $ OS。type == "unix" && !grepl("^darwin",R.version$os)){#从UCSC下载数据goldenPath="http://hgdownload.cse.ucsc.edu/goldenPath/" #基因注释转储Download .file(paste0(goldenPath,"eboVir3/database/ncbiGene.txt.gz"), file.path(customDir,"eboVir3_ncbiGene.txt.gz")) #染色体信息Download .file(paste0(goldenPath,"eboVir3/database/chromInfo.txt.gz"),file.path(customDir,"eboVir3_chromInfo.txt.gz")) #准备编译chromInfo <- read.delim(file.path(customDir,"eboVir3_chromInfo.txt.gz"), header=FALSE) chromInfo <- chromInfo[,1:2] rownames(chromInfo) <- as.character(chromInfo[,1]) chromInfo <- chromInfo[,2,drop=FALSE] #从genePred到GTF的转换genePredToGtf <- file.path(customDir,"genePredToGtf") if (!file("http://hgdownload.soe.ucsc.edu/admin/exe/linux.x86_64/genePredToGtf", genePredToGtf) system(paste("chmod 775",genePredToGtf))} gtfFile <- file.path(customDir,"eboVir3.gtf") tmpName <- file.path(customDir,paste(format(Sys.time(),"%Y%m%d%H% m% S"), "tgtf",sep=".")) command <- paste0("zcat ",file.path(customDir,"eboVir3_ncbiGene.txt.gz"), " | ","cut -f2- | ",genePredToGtf,"文件stdin ",tmpName, " -source=eboVir3"," -utr && grep - vp '\t\\. t\\ \。\t' ",tmpName," > ", gtfFile)系统(命令)#构建与元数据列表填充(您也可以提供一个版本)buildCustomAnnotation(gtfFile=gtfFile,元数据=list(organism="eboVir3_test", source="ucsc_test", chromInfo=chromInfo), db=myDb) #尝试检索一些数据eboGenes <- loadAnnotation(genome="eboVir3_test",refdb="ucsc_test", level="gene",type="gene",db=myDb) eboGenes}
##打开metaseqR2 SQLite数据库/tmp/RtmpobJYsh/test_anndb/testann.sqlite
导入GTF /tmp/RtmpobJYsh/test_custom/eboVir3。gtf作为gtf来做id映射
##创建id映射
导入GTF /tmp/RtmpobJYsh/test_custom/eboVir3。gtf作为TxDb
从文件中导入基因组特征作为GRanges对象…准备“元数据”数据帧…##创建TxDb对象…从/tmp/RtmpobJYsh/test_custom/eboVir3获取ebovir3_test版本20211128的基因注释。##从ucsc_test版本20211128中检索ebovir3_test的转录本注释,从ucsc_test版本20211128中检索ebovir3_test的3' UTR注释,从ucsc_test版本20211128中检索ebovir3_test的每个基因的3' UTR注释,从ucsc_test版本20211128中检索每个基因的3' UTR注释,从导入的gtf中检索每个基因的UTR注释从ucsc_test版本20211128检索ebovir3_test的外显子注释,从ucsc_test版本20211128检索ebovir3_test的外显子注释,为导入的GTF汇总每个基因的外显子
GRanges对象,包含9个范围和4个元数据列:# # seqnames范围链| gene_id gc_content gene_name # # < Rle > < IRanges > < Rle > | <人物> <数字> <人物> # # NP KM034562v1 56 - 3026 + 50 | NP NP # # VP35 KM034562v1 3032 - 4407 + | VP35 50 VP35 # # VP40 KM034562v1 4390 - 5894 + | VP40 50 VP40 # # GP KM034562v1 5900 - 8305 + 50 | GP GP # # sGP KM034562v1 5900 - 8305 + 50 | sGP sGP # # ssGP KM034562v1 5900 - 8305 + | ssGP 50 ssGP # # VP30 KM034562v1 8288 - 9740 + | VP30 50 VP30 # # VP24 KM034562v1 9885 - 11518 + | VP24 50 L KM034562v1 VP24 # # 11501 - 18282 +| L 50 L ##生物型## <性状> ## NP基因## VP35基因## VP40基因## GP基因## sGP基因## ssGP基因## VP30基因## VP24基因## L基因## ------- ## seqinfo: 1序列来自ebovir3_test基因组

另一个例子是UCSC的大西洋鳕鱼。同样的事情也适用于操作系统。

如果(.Platform $ OS。type == "unix"){#基因注释dump download.file(paste0(goldenPath,"gadMor1/database/augustusGene.txt.gz"), file.path(customDir,"gadMori1_augustusGene.txt.gz")) #染色体信息download.file(paste(goldenPath,"gadMor1/database/chromInfo.txt.gz",sep=""), file.path(customDir,"gadMori1_chromInfo.txt.gz") #准备构建chromInfo <- read.delim(file.path(customDir,"gadMori1_chromInfo.txt.gz"),header=FALSE) chromInfo <- chromInfo[,1:2] rownames(chromInfo) <- as.character(chromInfo[,1]) chromInfo <- chromInfo[,2,drop=FALSE] #从genePred到GTF的转换genePredToGtf <- file.path(customDir,"genePredToGtf") if (!file.exists(genePredToGtf)){下载。file("http://hgdownload.soe.ucsc.edu/admin/exe/linux.x86_64/genePredToGtf", genePredToGtf) system(paste("chmod 775",genePredToGtf))} gtfFile <- file.path(customDir,"gadMori1.gtf") tmpName <- file.path(customDir,paste(format(Sys.time(),"%Y%m%d%H% m% S"), "tgtf",sep=".")) command <- paste0("zcat ",file.path(customDir,"gadMori1_augustusGene.txt.gz"), " | ","cut -f2- | ",genePredToGtf,"文件stdin ",tmpName, " -source=gadMori1"," -utr && grep - vp '\t\\. t\\ \。\t' ",tmpName," > ", gtfFile)系统(命令)#构建与元数据列表填充(你也可以提供一个版本)buildCustomAnnotation(gtfFile=gtfFile,元数据=list(organism="gadMor1_test", source="ucsc_test", chromInfo=chromInfo), db=myDb) #尝试检索一些数据gadGenes <- loadAnnotation(genome="gadMor1_test",refdb="ucsc_test", level="gene",type="gene",db=myDb) gadGenes}

另一个例子是ensemble bl的Armadillo。这应该工作与操作系统无关。我们正在从UCSC下载染色体信息。

#基因注释dump from Ensembl download.file(paste0("ftp://ftp.ensembl.org/pub/release-98/gtf/", "dasypus_novemcinctus/ dasypus_novemcinctus . dasnov3.0.98 .gtf.gz"), file.path(customDir," dasypus_novemcinctus . dasnov3.0.98 .gtf.gz"))我们注意到,当使用Windows作为操作系统时,# a远程BAM文件无法通过scanBamParam打开,因此对于本例,在Windows中运行时,#染色体长度信息将不可用。bamForInfo <- NULL if (. platform $OS。type == "unix") bamForInfo <- paste0("ftp://ftp.ensembl.org/pub/release-98/bamcov/", "dasypus_novemcinctus/genebuild/ dasnov3 . broadd . ascending_colon_5 .1.bam") #用填充的元数据列表构建(你也可以提供一个版本)buildCustomAnnotation(gtfFile=file.path(customDir," dasypus_novemcinctus . dasnov3.0.98 .gtf.gz"),元数据=list(organism="dasNov3_test", source="ensembl_test", chromInfo=bamForInfo),dasGenes <- loadAnnotation(genome="dasNov3_test",refdb="ensembl_test", level="gene",type="gene",db=myDb

3.5一个完整的构建

一个相当完整的构建(使用最新版本的Ensembl注释)看起来像这样(假设默认的注释数据库位置):

organisms <- list(hg18=67, hg19=75, hg38=97:98, mm9=67, mm10=97:98, rn5=79, rn6=97:98, dm3=78, dm6=97:98, danrer7=79, danrer10=91, danrer11=97:98, pantro4=90, pantro5=97:98, susscr3=89, susscr11=97:98, equcab2=97:98) sources <- c("ensembl","ucsc","refseq") buildAnnotationDatabase(organisms,sources,forceDownload=FALSE,rc=0.5)

可以找到前面提到的完整构建在这里对于不希望自己创建注释数据库的用户,完整的构建将不时可用(例如,随着每个新的Ensembl relrase)。可能需要根访问权限(取决于metaseqR2库位置)来将其放置在可以自动找到它的默认位置。

4注释动态

如果出于某种原因,您不想为metaseqR2分析构建和使用注释数据库(不推荐),或者希望使用数据库中还不存在的生物执行分析,则可以使用loadAnnotation函数将执行所有必需的操作(下载并创建一个农庄对象),只要有互联网连接,就可以随时使用。

但是,上面的函数不能处理GTF文件中的自定义注释。在只希望使用一次自定义注释的场景中,应该提供注释的参数metaseqr2函数,几乎和元数据用于buildCustomAnnotation,实际上是由GTF文件的列表成员增强的,即:

注释<- list(gtf="PATH_TO_GTF", organism="ORGANISM_NAME", source="SOURCE_NAME", chromInfo="CHROM_INFO")

上面的参数可以传递给相应位置的metaseqr2调用。

有关动态自定义注释的更多详细信息,请查看buildCustomAnnotation而且importCustomAnnotation功能。

5会话信息

sessionInfo ()
## R版本4.1.2(2021-11-01)##平台:x86_64-pc-linux-gnu(64位)##运行在Ubuntu 20.04.3 LTS ## ##矩阵产品:默认## BLAS: /home/biocbuild/bbs-3.14-bioc/R/lib/libRblas。/home/biocbuild/bbs-3.14-bio /R/lib/libRlapack。所以## ## locale: ## [1] LC_CTYPE=en_US。UTF-8 LC_NUMERIC= c# # [3] LC_TIME=en_GB LC_COLLATE= c# # [5] LC_MONETARY=en_US。utf - 8 LC_MESSAGES = en_US。UTF-8 ## [7] LC_PAPER=en_US。UTF-8 LC_NAME= c# # [9] LC_ADDRESS=C lc_phone = c# # [11] LC_MEASUREMENT=en_US。UTF-8 LC_IDENTIFICATION=C ## ##附加的基本包:##[1]样条stats4统计图形grDevices utils数据集##[8]方法基础## ##其他附加包:# # # # [1] BSgenome.Mmusculus.UCSC.mm10_1.4.3 BSgenome_1.62.0 [3] rtracklayer_1.54.0 Biostrings_2.62.0 # # [5] XVector_0.34.0 metaseqR2_1.6.1 # # [7] locfit_1.5 - 9.4 limma_3.50.0 # # [9] DESeq2_1.34.0 SummarizedExperiment_1.24.0 # # [11] Biobase_2.54.0 MatrixGenerics_1.6.0 # # [13] matrixStats_0.61.0 GenomicRanges_1.46.1 # # [15] GenomeInfoDb_1.30.0 IRanges_2.28.0 # # [17] S4Vectors_0.32.3 BiocGenerics_0.40.0 # # [19] BiocStyle_2.22.0 # # # #通过加载一个名称空间(而不是附加):# # # # [1] utf8_1.2.2 R.utils_2.11.0 [3] tidyselect_1.1.1 heatmaply_1.3.0 # # [5] RSQLite_2.2.8 AnnotationDbi_1.56.2 # # [7] htmlwidgets_1.5.4 grid_4.1.2 # # [9] TSP_1.1-11 BiocParallel_1.28.2 # # [11] baySeq_2.28.0 munsell_0.5.0 # # [13] preprocessCore_1.56.0 codetools_0.2-18 # # [15] DT_0.20 future_1.23.0 # # [17] withr_2.4.2 colorspace_2.0-2 # # [19] filelock_1.0.2 knitr_1.36 # # [21] listenv_0.8.0 GenomeInfoDbData_1.2.7 # # [23] hwriter_1.3.2 bit64_4.0.5 # # [25] rhdf5_2.38.0 parallelly_1.29.0 # # [27][37] bitops_1.0-7 rhdf5filters_1.6.0 ## [39] cachem_1.0.6 DelayedArray_0.20.0 ## [41] assertthat_0.2.1 BiocIO_1.4.0 ## [43] scales_1.1.1 bsseq_1.30.0 ## [45] gtable_0.3.0 affy_1.72.0 ## [47] globals_0.14.0 log4r_0.4.2 ## [49] rlang_0.4.12 genefilter_1.76.0 ## b[51] lazyeval_0.2.2 DSS_2.42.0 ## [53] BiocManager_1.30.16[67] jquerylib_0.1.4 RColorBrewer_1.1-2 ## [69] Rcpp_1.0.7 plyr_1.8.6 ## [71] sparseMatrixStats_1.6.0 progress_1.2.2 ## [73] zlibbioc_1.40.0 purrr_0.3.4 ## [77] RCurl_1.98-1.5 prettyunits_1.1.1 ## [77] viridis_0.6.2 zoo_1.8-9 ## [79] magrittr_2.0.1data.table_1.14.2 ## [81] futil .options_1.0.1 survcomp_1.44.0 ## [85] aromal .light_3.24.0 hms_1.1.1 ## [87] xml_3 .99- 8 VennDiagram_1.7.0 ## [89] jpeg_0.1-9 gridExtra_2.3 ## [91] compiler_4.1.2 biomaRt_2.50.1 ## [93] tibble_3.1.6 KernSmooth_2.23-20 ## [95] crayon_1.4.2 R.oo_1.24.0 ## [97] htmltools_0.5.2 tidyr_1.1.4 ## [101] SuppDists_1.1-9.5 formatR_1.11 ## [103] corrplot_0.92 dbplyr_2.1.1 ## [105] MASS_7.3-54 rappdirs_0.3.3 ## [107] ShortRead_1.52.0 Matrix_1.3-4 ## [109] rmeta_3.0 permute_0.9-5 ## [111] vsn_3.62.0 R.methodsS3_1.8.1 ## [113] parallel_4.1.2 pkgconfig_2.0.3 ## [115] GenomicAlignments_1.30.0 registry_0.5-1 ## [117] plotly_4.10.0 xml2_1.3.2 ## [119] foreach_1.5.1 annotate_1.72.0 ## [121] bslib_0.3.1 webshot_0.5.2 ## [123] prodlim_2019.11.13 stringr_1.4.0 ## [125] digest_0.6.28 rmarkdown_2.11 ## [127] harmonicmeanp_3.0 dendextend_1.15.2 ## [129] edgeR_3.36.0 DelayedMatrixStats_1.16.0 ## [131] restfulr_0.0.13 curl_4.3.2 ## [133] Rsamtools_2.10.0 gtools_3.9.2 ## [135] rjson_0.2.20 lifecycle_1.0.1 ## [137] jsonlite_1.7.2 ABSSeq_1.48.0 ## [139] Rhdf5lib_1.16.0 survivalROC_1.0.3 ## [141] futile.logger_1.4.3 viridisLite_0.4.0 ## [143] fansi_0.5.0 pillar_1.6.4 ## [145] lattice_0.20-45 KEGGREST_1.34.0 ## [147] fastmap_1.1.0 httr_1.4.2 ## [149] survival_3.2-13 glue_1.5.0 ## [151] png_0.1-7 iterators_1.0.13 ## [153] pander_0.6.4 bit_4.0.4 ## [155] stringi_1.7.5 sass_0.4.0 ## [157] HDF5Array_1.22.1 bootstrap_2019.6 ## [159] blob_1.2.2 latticeExtra_0.6-29 ## [161] caTools_1.18.2 memoise_2.0.1 ## [163] FMStable_0.1-2 dplyr_1.0.7 ## [165] future.apply_1.8.1