内容

1版本信息

R版本: R正在开发中(不稳定)(2022-10-25 r83175)
Bioconductor版本: 3.17
包版本: 1.23.0

2背景

Bioconductor可以导入各种与序列相关的文件类型,包括fasta、fastq、BAM、VCF、gff、bed和wig文件等。包支持常见的和高级的序列操作,如修剪、转换和对齐。领域特异性分析包括质量评估、ChIP-seq、差异表达、RNA-seq和其他方法。Bioconductor包含一个到序列读取存档的接口(通过SRAdb包)。

此工作流使用Bioconductor包遍历通用范围集的注释。范围可以是任何用户定义的感兴趣的区域,也可以来自公共文件。

3.数据准备

3.1人类hg19

第一步,将数据放入GRanges对象中,这样我们就可以利用重叠操作并将标识符存储为元数据列。

第一组范围是来自dbSNP Variant Call Format (VCF)文件的变体。该文件可以从NCBI的ftp站点下载ftp://ftp.ncbi.nlm.nih.gov/snp/并使用readVcf()从VariantAnnotation包导入。或者,该文件在AnnotationHub中作为预解析的VCF对象可用。

Hub返回一个VcfFile对象,其中包含对磁盘上文件的引用。

hub <- AnnotationHub()
## snapshotDate(): 2022-10-26

在Hub中查询clinvar VCF文件build GRCh37:

clinvar mcols(查询(中心。”vcf", "GRCh37"))[,"sourceurl", drop=FALSE]
##数据帧与8行和1列## sourceurl ## <字符> ## AH57956 ftp://ftp.ncbi.nlm.n..## AH57957 ftp://ftp.ncbi.nlm.n..## AH57958 ftp://ftp.ncbi.nlm.n..## AH57959 ftp://ftp.ncbi.nlm.n..## AH57960 ftp://ftp.ncbi.nlm.n..## AH57961 ftp://ftp.ncbi.nlm.n..## AH57962 ftp://ftp.ncbi.nlm.n..## AH57963 ftp://ftp.ncbi.nlm.n..

检索其中一个文件:

Fl <- query(hub, "clinvar。vcf”、“GRCh37”)[[1]]
##从缓存加载

将数据读入一个VCF对象:

vcf <- readVcf(fl, "hg19") dim(vcf)
## [1] 109721 0

重叠操作要求对象的seqlevel和基因组匹配。这里修改VCF seqlevel以匹配TxDb。

txdb_hg19 <- TxDb.Hsapiens.UCSC.hg19。knownGene头(seqlevels (txdb_hg19))
##[1]“chr1”“chr2”“chr3”“chr4”“chr5”“chr6”
seqlevels (vcf)
# #[1]“1”“2”“3”“4”“5”“6”“7”“8”“9”“10”“十一”“12”“13”“14”“15”# #[16]“16”“17”“18”“19”“20”“21”“22”“X”“Y”“太”
Seqlevels (vcf) <- paste0("chr", Seqlevels (vcf))

在这个例子中,我们将注释3号和18号染色体:

Seqlevels (vcf, pruning_mode ="粗")<- c("chr3", "chr18") Seqlevels (txdb_hg19) <- c("chr3", "chr18")

完整性检查以确认我们有匹配的序列级别。

相交(seqlevels (txdb_hg19) seqlevels (vcf))
##[1]“chr3”“chr18”

基因组已经匹配,所以不需要改变。

独特的(基因组(txdb_hg19))
##[1]“hg19”
独特的(基因组(vcf))
##[1]“hg19”

VCF对象中的grange是用' rowRanges() '提取的。

gr_hg19 <- rowRanges(vcf)

3.2鼠标mm10

第二组范围是小鼠4号染色体的用户定义区域。这里的思想是,任何已知或未知的区域都可以通过以下步骤进行注释。

加载TxDb包,只保留标准染色体。

txdb_mm10 <- keepstandardchromosome (TxDb.Mmusculus.UCSC.mm10.ensGene)

我们从头开始创建grange,并可以指定seqlevels(染色体名称)来匹配TxDb。

头(seqlevels (txdb_mm10))
##[1]“chr1”“chr2”“chr3”“chr4”“chr5”“chr6”
gr_mm10 <- GRanges("chr4", IRanges(c(4000000, 107889000), width=1000)))

现在分配基因组。

独特的(基因组(txdb_mm10))
##[1]“mm10”
基因组(gr_mm10) <- "mm10"

4基因内和基因周围的位置

VariantAnnotation包中的locateVariants()对TxDb中的转录本、外显子、cd和基因ID进行标注。在TxDb上执行各种提取(exonsBy()、transcripts()、cdsBy()等),结果与范围重叠。还可以提供适当的GRangesList作为注释。不同的变体,如' coding ', ' fiveUTR ', ' threeUTR ', ' spliceSite ', ' intron ', ' promoter '和' intergenic '可以通过传递适当的构造函数作为' region '参数来搜索。参见?locateVariants获取详细信息。

loc_hg19 <- locateVariants(gr_hg19, txdb_hg19, allvariables ())
##有效的警告。seqinfo (x,建议。trim = TRUE):GRanges对象包含82536个超出界限的范围,它们位于序列## 13067、13068、13069、15251、15252、13091、13092、13093、13094、13095、## 13097、13123、13124、13130、13131、131313131313131313199、15301、15304、15305、13177、13199、13201、13205、13206、13207、## 13208、15329、15330、15341、15343、15344、13260、13261、13253、## 13254、13255、13258、13268、13264、13265、13266、15267、15363、15365、## 15388、13288、13289、15391、15392、15393、15424、15420、15421, 15422, ## 13316, 13317, 13318, 13319, 15449, 15486, 15504, 15505, 15506, 15538, 13391, 13392, 13390, 13399, 15554, 15555, ## 15556, 15557, 13432, 13433, 13437, 13439, 13452, 13445, 13446, 13453, 13454, 13458, 13467, 13468, 15585, ## 15584, 13513, 13514, 15589, 15590, 15591, 15592, 15593, 15594, 15595, ## 15596, 15603, 15597, 15598, 15599, 15601, 15602, 15604, 15616, ## 15617, 15625, 13541, 13564, 13565, 13582,13583, 13584, 13585, 13586, ## 13587, 15657, 15658, 15660, 15661, 13635, 15682, 15684, 15685, 15686, ## 15687, 13713, 13716, 15714, 13717, 13718, 13718, 13719, 13720, 15721, ## 13730, 13731, 13733, 15800, 15808, 15806, 15807, 15809, 15811, 15805, ## 15834, 13775, 13777, 15808, 15843, 15885, 15882, 15883, 15884, 15885, 15882, 15882, 15879, 13791, 13792, 13793, ## 13894, 13795, 13796, 13798, 13899, 13800, 13897, 13896, 13832, 13833,13836, 13837, 13838, 15967, 15968, 15969, ## 13892, 13893, 13894, 13895, 13896, 13897, 16011, 16013, 13910, 16023, ## 16025, 16027, 16033, 16034, 16035, 16036, 16037, 16039, 16041, 16042, ## 16070, 13951, 13952, 13953, 13954, 13954, 16112, 16113, 16114, 16115, 13974, 13975, 13976, 13994, 13995, 16129, ## 16211, 16212, 14072, 14073, 14074, 16199, 16202, ## 16211, 16223, 16224, 16226, ## 16227, 16228,16229, 16230, 16240, 16241, 16258, 14091, 14092, 14093, ## 14094, 14096, 14090, 16267, 16266, 14108, 14109, 14122, 14123, 14121, 14124, 14125, 16329, 16330, ## 14207, 14208, 14344, 14345, 16346, 16347, 16348, 14338, 14350, 16498, 16499, 16514, 16514, 16518, ## 16519, 16520, 14398, 14399, 14401, 14412, 14413, 16547, 16555, ## 16556, 16557, 16558, 16559, 16560, 16561, 16562, 14440, 14444, 14443,## 16643, 16644, 16645, 14487, 14488, 14495, 14497, 14511, 14513, 14514, 14515, 14518, 14520, ## 14521, 14522, 14523, 14546, 14546, 14522, 14549, 14546, 14547, 14552, 16701, 16714, 14518, 14518, 14592, 14594, 14596, 14595, ## 16727, 16728, 14599, 14600, 14601, 14602, 14816, 16826, 16849, ## 16850, 16851, 16852, 14714, 14715, 14722, 14723, 14824, 14825, 16860, 16861, 16862, 16863, 14888, 14823, 14824, 14825,16961, 16962, 16963, 16964, 16965, 16983, 17007, 17008, 17009, 17010, 17011, 17012, ## 17014, 17015, 17046, 17047, 17048, 17098, 17125, 17126, 17127, 15016, 17151, 17153, 15047, 15048, 15049, 15050, ## 15051, 15052, 15054, 15055, 15057, 15058, 15059, 17157, 17158, 17159, ## 17160, 17156, 17161, 17162, 17163, 17164, 17165, 17166, 17167, 17168, ## 17169, 17172, 17173, 17181, 17182, 17203, 17202, 17215, 17216, ## 17223, 17221, 17222, 17224, 15132, 15133,15134、15135、15136、15137、## 15138、15139、15141、15140、15157、15158、15163、15164、15165、15166、## 15167、15168、15169、15170、17304、17308、17309、17330,17308、17309、17379、17328、17329、17375、17376、17379、1722,1521,1522,15228、65174、## 64612、64613、64615、64616、64611、64614、64618、64619、64620、65217、## 65218、64652、65285,64755,64755,64758,6545,64756,64766,65285,64755,6534,6534,6534,6544,64756,64756,64766,6534,6534,6534,6544,64744,6534,6534,6544,64744,6534,6534,6534,64811,64812,64812,64815、64816, 64823, 64824, 64825, 64826, 64827, ## 64828, 64829, 64830, 64831, 64832, 64834, 64834, 64834, 64834, 64837, 64846, 64840, 64841, 64842, 64844, 64837, 64846, 64475, 64476, 65481, 65484, 65490, 65491, 65492, 65493, 65488, ## 65489, 65558, 65559, 65578, 65580, 64959, 64962, 64964, 65620, 65621, ## 65622, 65623, 65624, 65625, 65627, 65629, 65630, 65631, ## 65632, 65633, 65634, 65638, 65639, 65640, 65653, ## 65654, 65655, 65661, 65666, 65032, 65033, 65034, 65035, 65036, 65716, ## 65713, 65714, 65717, 65718, 65138, and 65763. Note that ranges located ## on a sequence whose length is unknown (NA) or on a circular sequence ## are not considered out-of-bound (use seqlengths() and isCircular() to ## get the lengths and circularity flags of the underlying sequences). You ## can use trim() to trim these ranges. See ?`trim,GenomicRanges-method` ## for more information.
##“select()”返回多个:1个键和列之间的映射##“select()”返回多个:1个键和列之间的映射##“select()”返回多个:1个键和列之间的映射##“select()”返回多个:1个键和列之间的映射##“select()”返回多个:1个键和列之间的映射##“select()”返回多个:1个键和列之间的映射
表(loc_hg19美元位置)
## ## spliceSite内含子fiveUTR threeUTR编码基因间启动子## 1520 17805 2061 1596 28014 9 2374
loc_mm10 <- locateVariants(gr_mm10, txdb_mm10, allvariables ())
## 'select()'返回键和列之间的1:1映射
## 'select()'返回键和列之间的1:1映射
表(loc_mm10美元位置)
## ## spliceSite内含子fiveUTR threeUTR编码基因间启动子## 6 3 0 0 0 0 12

5按ID标注

locateVariants()返回的ID可以在select()中使用,以映射到其他注释包中的ID。

cols <- c("UNIPROT", "PFAM") keys <- na.省略(unique(loc_hg19$GENEID)) head(select(org. hs . exe .db, keys, cols, keytype="ENTREZID"))
## 'select()'返回1:多个键和列之间的映射
## 1 27255 a0a024r2c7 pf07679 ## 2 27255 a0a024r2c7 pf07679 ## 4 27255 b4dgv0 pf07679 ## 5 27255 q9uq52 pf00041 ## 6 27255 q9uq52 pf07679

' keytype '参数指定鼠标TxDb包含Ensembl而不是Entrez基因id。

keys <- unique(loc_mm10$GENEID) head(select(org. mm . e.g. .db, keys, cols, keytype="ENSEMBL"))
## 'select()'返回1:多个键和列之间的映射
ensmusg00000058006 j3qmc5 pf07728 ## 2 ensmusg00000058006 j3qmc5 pf17867 ## 3 ensmusg00000058006 j3qmc5 pf17865 ## 4 ensmusg00000058006 a2any6 pf07728 ## 5 ensmusg00000058006 a2any6 pf17867 ## 6 ensmusg00000058006 a2any6 pf17865 ##

6按位置标注

存储在AnnotationHub中的文件已经被预处理为基于范围的R对象,如GRanges、GAlignments和VCF。grange中的位置可以与AnnotationHub文件中的范围重叠。这允许对多个文件进行简单的子集设置,从而只生成感兴趣的范围。

从AnnotationHub创建一个“枢纽”,并根据生物体和基因组构建过滤文件。

hub <- AnnotationHub()
## snapshotDate(): 2022-10-26
hub_hg19 <- sub (hub, (hub$species == "Homo sapiens") & (hub$genome == "hg19")) length(hub_hg19)
## [1] 24234

遍历前3个文件并提取重叠' gr_hg19 '的范围。

##从缓存加载##从缓存加载
ov_hg19 <- lapply(1:3,函数(i) subsetByOverlaps(hub_hg19[[i]], gr_hg19)))
##从缓存加载##从缓存加载

检查结果。

name (ov_hg19) <- Names (hub_hg19)[1:3] lapply(ov_hg19, head, n=3)
# # $ AH5012 # # UCSC的追踪“cytoBand”# # UCSCData对象3和1元数据列:# # seqnames范围链|名称# # < Rle > < IRanges > < Rle > | <人物> # # [1]chr3 1 - 2800000 * | p26.3 # # [2] chr3 2800001 - 2800001 * | p26.2 # # [3] chr3 4000001 - 4000001 * | p26.1  ## ------- ## seqinfo: 93从hg19基因组序列(1循环)# # # # $ AH5013 # # UCSC的追踪“stsMap”# # UCSCData对象3和2元数据列:## seqnames range strand | name score ##    |   ## [1] chr3 8787843-8788458 * | BV209804 1000 ## [2] chr3 8788295-8788424 * | RH92828 1000 ## [3] chr3 10183290-10183558 * | GDB:361137 1000 ## ------- ## seqinfo: 93序列(1循环)从hg19基因组## ## $AH5014 ## UCSC跟踪' fish克隆' ## UCSCData对象与3个范围和2元数据列:## seqnames range strand | name score ##    |   ## [1] chr3 4354970-4542349 * | RP11-91K16 1000 ## [2] chr3 4765290-4929842 * | RP11-106B10 [3] chr3 8711065-8882271 * | RP11-128A5 1000 ## ------- # seqinfo: hg19基因组93个序列(1个循环)

以同样的方式注释鼠标范围将作为练习。

7注释变体

氨基酸编码变化

对于落在编码区域的dbSNP变体集,可以计算出氨基酸的变化。输出为每个变体-转录匹配包含一行,这可能导致每个变体有多行。

head(predictCoding(vcf, txdb_hg19, Hsapiens), 3)
##有效的警告。seqinfo (x,建议。trim = TRUE):GRanges对象包含92870个超出界限的范围,位于序列## 13067、13068、13069、15251、15252、13091、13092、13093、13094、13095、## 13097、13123、13124、13130、13131、131313131313131313199、15301、15304、15305、13177、13199、13201、13205、13206、13207、## 13208、15329、15330、15341、15343、15344、13260、13261、13253、## 13254、13255、13258、13268、13264、13265、13266、15267、15363、15365、## 15388、13288、13289、15391、15392、15393、15424、15420、15421, 15422, ## 13316, 13317, 13318, 13319, 15449, 15486, 15504, 15505, 15506, 15538, 13391, 13392, 13390, 13399, 15554, 15555, ## 15556, 15557, 13432, 13433, 13437, 13439, 13452, 13445, 13446, 13453, 13454, 13458, 13467, 13468, 15585, ## 15584, 13513, 13514, 15589, 15590, 15591, 15592, 15593, 15594, 15595, ## 15596, 15603, 15597, 15598, 15599, 15601, 15602, 15604, 15616, ## 15617, 15625, 13541, 13564, 13565, 13582,13583, 13584, 13585, 13586, ## 13587, 15657, 15658, 15660, 15661, 13635, 15682, 15684, 15685, 15686, ## 15687, 13713, 13716, 15714, 13717, 13718, 13718, 13719, 13720, 15721, ## 13730, 13731, 13733, 15800, 15808, 15806, 15807, 15809, 15811, 15805, ## 15834, 13775, 13777, 15808, 15843, 15885, 15882, 15883, 15884, 15885, 15882, 15882, 15879, 13791, 13792, 13793, ## 13894, 13795, 13796, 13798, 13899, 13800, 13897, 13896, 13832, 13833,13836, 13837, 13838, 15967, 15968, 15969, ## 13892, 13893, 13894, 13895, 13896, 13897, 16011, 16013, 13910, 16023, ## 16025, 16027, 16033, 16034, 16035, 16036, 16037, 16039, 16041, 16042, ## 16070, 13951, 13952, 13953, 13954, 13954, 16112, 16113, 16114, 16115, 13974, 13975, 13976, 13994, 13995, 16129, ## 16211, 16212, 14072, 14073, 14074, 16199, 16202, ## 16211, 16223, 16224, 16226, ## 16227, 16228,16229, 16230, 16240, 16241, 16258, 14091, 14092, 14093, ## 14094, 14096, 14090, 16267, 16266, 14108, 14109, 14122, 14123, 14121, 14124, 14125, 16329, 16330, ## 14207, 14208, 14344, 14345, 16346, 16347, 16348, 14338, 14350, 16498, 16499, 16514, 16514, 16518, ## 16519, 16520, 14398, 14399, 14401, 14412, 14413, 16547, 16555, ## 16556, 16557, 16558, 16559, 16560, 16561, 16562, 14440, 14444, 14443,## 16643, 16644, 16645, 14487, 14488, 14495, 14497, 14511, 14513, 14514, 14515, 14518, 14520, ## 14521, 14522, 14523, 14546, 14546, 14522, 14549, 14546, 14547, 14552, 16701, 16714, 14518, 14518, 14592, 14594, 14596, 14595, ## 16727, 16728, 14599, 14600, 14601, 14602, 14816, 16826, 16849, ## 16850, 16851, 16852, 14714, 14715, 14722, 14723, 14824, 14825, 16860, 16861, 16862, 16863, 14888, 14823, 14824, 14825,16961, 16962, 16963, 16964, 16965, 16983, 17007, 17008, 17009, 17010, 17011, 17012, ## 17014, 17015, 17046, 17047, 17048, 17098, 17125, 17126, 17127, 15016, 17151, 17153, 15047, 15048, 15049, 15050, ## 15051, 15052, 15054, 15055, 15057, 15058, 15059, 17157, 17158, 17159, ## 17160, 17156, 17161, 17162, 17163, 17164, 17165, 17166, 17167, 17168, ## 17169, 17172, 17173, 17181, 17182, 17203, 17202, 17215, 17216, ## 17223, 17221, 17222, 17224, 15132, 15133,15134、15135、15136、15137、## 15138、15139、15141、15140、15157、15158、15163、15164、15165、15166、## 15167、15168、15169、15170、17304、17308、17309、17330,17308、17309、17379、17328、17329、17375、17376、17379、1722,1521,1522,15228、65174、## 64612、64613、64615、64616、64611、64614、64618、64619、64620、65217、## 65218、64652、65285,64755,64755,64758,6545,64756,64766,65285,64755,6534,6534,6534,6544,64756,64756,64766,6534,6534,6534,6544,64744,6534,6534,6544,64744,6534,6534,6534,64811,64812,64812,64815、64816, 64823, 64824, 64825, 64826, 64827, ## 64828, 64829, 64830, 64831, 64832, 64834, 64834, 64834, 64834, 64837, 64846, 64840, 64841, 64842, 64844, 64837, 64846, 64475, 64476, 65481, 65484, 65490, 65491, 65492, 65493, 65488, ## 65489, 65558, 65559, 65578, 65580, 64959, 64962, 64964, 65620, 65621, ## 65622, 65623, 65624, 65625, 65627, 65629, 65630, 65631, ## 65632, 65633, 65634, 65638, 65639, 65640, 65653, ## 65654, 65655, 65661, 65666, 65032, 65033, 65034, 65035, 65036, 65716, ## 65713, 65714, 65717, 65718, 65138, and 65763. Note that ranges located ## on a sequence whose length is unknown (NA) or on a circular sequence ## are not considered out-of-bound (use seqlengths() and isCircular() to ## get the lengths and circularity flags of the underlying sequences). You ## can use trim() to trim these ranges. See ?`trim,GenomicRanges-method` ## for more information.
有3个范围和17个元数据列的GRanges对象:## seqnames ranges strand | paramRangeID REF ##    |   ## rs140337334 chr3 1427481 + | NA c# ## rs140337334 chr3 1427481 + | NA c# ## rs140337334 chr3 1427481 + | NA c# ##  <数字> <字符>   ## rs140337334 G,T NA。G 2704 ## rs140337334 G,T NA。G 2488 ## rs140337334 G,T NA。G 2704 ## PROTEINLOC QUERYID TXID CDSID GENEID ##      ## rs140337334 902 1 13068 40577 27255 ## rs140337334 830 1 13068 40577 27255 ## rs140337334 902 1 13069 40577 27255 ## CONSEQUENCE REFCODON VARCODON REFAA ##     ## rs140337334非同义CCT GCT P ## rs140337334非同义CCT GCT P ## rs140337334非同义CCT GCT P ## rs140337334非同义CCT GCT P ## rs140337334非同义CCT GCT P ## # VARAA ##  ## rs140337334 A ## rs140337334 A #### rs140337334 A ## ------- ## seqinfo: 2 sequences from hg19 genome; no seqlengths
sessionInfo ()
## R正在开发中(不稳定)(2022-10-25 r83175) ##平台:x86_64-pc-linux-gnu(64位)##运行在Ubuntu 22.04.1 LTS ## ##矩阵产品:默认## BLAS: /home/biocbuild/bbs-3.17-bioc/R/lib/libRblas。so ## LAPACK: /usr/lib/x86_64-linux-gnu/ LAPACK /liblapack.so.3.10.0 ## ## locale: ## [1] LC_CTYPE=en_US。UTF-8 LC_NUMERIC= c# # [3] LC_TIME=en_GB LC_COLLATE= c# # [5] LC_MONETARY=en_US。utf - 8 LC_MESSAGES = en_US。UTF-8 ## [7] LC_PAPER=en_US。UTF-8 LC_NAME= c# # [9] LC_ADDRESS=C lc_phone = c# # [11] LC_MEASUREMENT=en_US。UTF-8 LC_IDENTIFICATION=C ## ##附加的基本包:## [1]stats4 stats graphics grDevices utils datasets methods ##[8]基础## ##其他附加包:# # # # [1] annotation_1.23.0 [2] TxDb.Athaliana.BioMart.plantsmart22_3.0.1 # # [3] biomaRt_2.55.0 # # [4] BSgenome.Hsapiens.UCSC.hg19_1.4.3 # # [5] BSgenome_1.67.1 # # [6] rtracklayer_1.59.0 # # [7] Homo.sapiens_1.3.1 # # [8] GO.db_3.16.0 # # [9] OrganismDbi_1.41.0 # # [10] org.Mm.eg.db_3.16.0 # # [11] org.Hs.eg.db_3.16.0 # # [12] TxDb.Mmusculus.UCSC.mm10.ensGene_3.4.0 # # [13] TxDb.Hsapiens.UCSC.hg38.knownGene_3.16.0 # # [14] TxDb.Hsapiens.UCSC.hg19.knownGene_3.2.2 # # [15] GenomicFeatures_1.51.2 # # [16]AnnotationDbi_1.61.0 # # [17] Organism.dplyr_1.27.0 # # [18] AnnotationFilter_1.23.0 # # [19] dplyr_1.0.10 # # [20] AnnotationHub_3.7.0 # # [21] BiocFileCache_2.7.0 # # [22] dbplyr_2.2.1 # # [23] VariantAnnotation_1.45.0 # # [24] Rsamtools_2.15.0 # # [25] Biostrings_2.67.0 # # [26] XVector_0.39.0 # # [27] SummarizedExperiment_1.29.1 # # [28] Biobase_2.59.0 # # [29] GenomicRanges_1.51.0 # # [30] GenomeInfoDb_1.35.1 # # [31] IRanges_2.33.0 # # [32] S4Vectors_0.37.0 # # [33] MatrixGenerics_1.11.0 # # [34]matrixStats_0.62.0 ## [35] BiocGenerics_0.45.0 ## [36] BiocStyle_2.27.0 ## ##通过命名空间加载(并且没有附加):[7] RSQLite_2.2.18 png_0.1-7 ## [9] vctrs_0.5.0 string_1 .4.1 ## [11] pkgconfig_2.0.3 crayon_1.5.2 ## [13] fastmap_1.1.0 ellipsis_0.3.2 ## [15] utf8_1.2.2 promises_1.2.0.1 ## [17] rmarkdown_2.17 graph_1.77.0 ## [15] purrr_0.3.5 bit_4.0.4 ## [23] cachem_1.0.6 jsonlite_1.8.3 ## [25] progress_1.2.2 blob_1.2.3 ## [27] later_1.3.0 DelayedArray_0.25.0 ## [29][39] assertthat_0.2.1 knitr_1. 1.4 ## [41] httpuv_1.6.6 Matrix_1.5-1 ## [43] tidyselect_1.2.0 yaml_2.3.6 ## [45] codetools_0.2-18 curl_4.3.3 ## [49] withr_2.5.0 shiny_1.7.3 ## [51] KEGGREST_1.39.0 evaluate_0.17 ## [53] xml2_1.3.3 pillar_1.8.1 ## [55] BiocManager_1.30.19filelock_1.0.2 ## [57] generics_0.1.3 rcurl_1 . 1.9 ## [59] BiocVersion_3.17.1 hms_1.1.2 ## [61] xtable_1.8-4 glue_1.6.2 ## [63] lazyeval_0.2.2 tools_4.3.0 ## [67] XML_3.99-0.12 grid_4.3.0 ## [69] GenomeInfoDbData_1.2.9 restfulr_0.0.15 ## [71] cli_3.4.1 rappdirs_0.3.3 ## [73] fansi_1.0.3 sass_0.4.2 ## [77] memoise_2.0.1 htmltools_0.5.3 ## [79] lifecycle_1.0.3 httr_1.4.4 ## [81] mime_0.12 bit64_4.0.5

8练习

练习1:VCF报头和读取数据子集。

VCF文件可能很大,通常情况下只有变量或基因组位置的一个子集是感兴趣的。VariantAnnotation包中的scanVcfHeader()函数从VCF文件中检索头信息。基于从scanVcfHeader()返回的信息,可以创建ScanVcfParam()对象来读入VCF文件中的数据子集。*使用scanVcfHeader()检查VariantAnnotation包中的' chr22.vcf.gz '文件中的头信息。*选择一些' info '或' geno '变量并创建ScanVcfParam对象。*使用ScanVcfParam对象作为readVcf()的' param '参数来读入一个数据子集。注意header()访问器操作R工作区中的VCF对象。在AnnotationHub的dbSNP文件上尝试头文件(vcf)。

练习2:用AnnotationHub文件注释“gr_mm10”中的鼠标范围。*在生物体上创建一个新的“枢纽”和过滤器。*为适当的基因组构建隔离文件并执行重叠。

练习3:注释Scerevisiae的一个基因范围。*加载TxDb.Scerevisiae.UCSC.sacCer3。sgdGene,提取基因范围。(提示:使用transcriptsBy()和range())。*分离基因“YBL086C”的范围。*创建一个新的“枢纽”从AnnotationHub和过滤的有机体。(你应该看到>= 39个文件。)*选择文件' sacCer3 '并执行重叠。

回到顶部