内容

作者:Sonali Arora (sarora@fredhutch.org)
日期:2015年7月20日至24日

本课程的材料要求R版本3.2.1和Bioconductor版本3.2

0.1生物导体中级实验室

练习1
找到Biocumon中的包,其中包含从UCSC生成的ucsc for tar norvegicus(汇编RN5),加载它并将其保存在一个名为“TXDB”的变量中。使用此对象,执行以下操作 -
a)找到本组装中包含的所有基因,并将其保存在一个名为'Ratenes'中。
b)大鼠中含有多少个序列?(提示:?SEQINFO)
c)“ratGenes”也包含支架——你如何将对象子集为只包含来自标准染色体的序列?
b)我对基因'ACSL5'(Entrez Gene ID = 94340)感兴趣。这是否存在于'Ratenes'中?它的染色体坐标是什么?

练习2
在UCSC提供的Bioconductor中找到保存褐家鼠全基因组序列的包装(rn5, 2012年3月)。
a)加载包并将其保存到一个名为“ratSeq”的对象中
b)存储在哪个序列信息的对象?
c)获取ACSL5的DNA序列信息,并将其存储在'ACSL5_SEQUENCE'中
d)从该序列计算GC含量。

练习3
在上面的' ratGenes '对象中,您只能得到entrez基因id,您能得到每个基因的基因名称吗?

练习4
从NCBI中获取智人的注释数据库(组装GRCh38.80),创建一个txdb对象(类似于我们在上面的问题3中看到的),并获得基因。(提示-涉及从头开始与GTF文件)

练习5
与UCSC浏览器跟踪基础设施一起开发的提升设备可用于转换GANGES格式的数据。我们希望将数据从RN4转换为最新的胶合RN6。
a)对RN6坐标的转换由UCSC提供的链文件定义。获取包含从RN5转换为RN6的链文件。
b)获取链文件后进行举升。

0.2解决方案

答案1

suppressPackageStartupMessages({library(" txdb . rnorvegicus . ucsc .rn5. refgene ")}) txdb <- txdb . rnorvegicus . ucsc .rn5。##列出所有序列seqinfo(ratGenes)
## Seqinfo对象拥有来自rn5基因组的2739个序列(1个圆形):## seqnames seqlengthiscircular genome ## chr1 290094216 FALSE rn5 ## chr2 285068071 FALSE rn5 ## chr3 183740530 FALSE rn5 ## chr4 248343840 FALSE rn5 ## chr5 177180328 FALSE rn5 ## ... ... ... ...## chrUn_JH620694 6347 FALSE rn5 ## chrUn_JH620695 1669 FALSE rn5 ## chrUn_JH620696 7236 FALSE rn5 ## chrUn_JH620697 3488 FALSE rn5 ## chrUn_JH620698 3129 FALSE rn5
##子集仅包含标准染色体的标准染色体< - 饥饿标准十四胞体(RATGENES)##找到基因'ACSL5'ACSL5 < -  RUENES [哪个(MCOL(RUGENES)$ GENE_ID == 94340),] ACSL5
## GRANGES对象具有1个范围和1个元数据列:## SEQNAMES范围股票|gene_id ##    | ## 94340 CHR1 [283637899,283685361] + |94340 ## ------- ## SEQINFO:来自RN5基因组的22个序列(1个圆形)

回答2

suppresspackageStartUpMessages({库(bsgenome.rnorvegicus.ucsc.rn5)})ratseq < -  bsgenome.rnorvegicus.ucc.rn5类(ratseq)
## [1]“bsgenome”## attr(,包装“)## [1]”bsgenome“
##获取acsl5_sequence <- getSeq(ratSeq, acsl5) ##计算GC内容letterFrequency(acsl5_sequence, "GC", as.prob=TRUE)
## g | c# # [1,] 0.4156501

回答3

库(“Rattus.norvegicus”)
##加载所需包:加载所需包:go.db ## ##加载所需包:org.rn.eg.db ## ##现在直接获取Godb对象##直接获取OrgdB对象##现在直接获取TXDB对象
##在所有entrex id和基因名称之间获取映射RuggenEnames < - 选择(Rattus.norvegicus,Ratenes $ Gene_ID,列= C(“符号”,'GeneID'),Keytype =“GeneID”)
## 'select()'返回键和列之间的1:1映射
##将Entrz ID与子集idx < - 匹配(ratgenenames $ geneid,Ratenes $ gene_id)匹配,将mactched结果添加到granges mcols(Ratenes)< -  Rugenenames [Idx,] Ratenes
## GRanges对象有17165个范围和2个元数据列:## seqnames ranges strand | GENEID SYMBOL ##    |   ## 100034253 chrX [20785115, 20818062] - | 100034253 Gnl3l ## 100036582 chr8 [20639977, 20641201] + | 100036582117149172] - | 100049583 Trex1 ## 100124593 chr8 [132020812, 132021866] + | 100124593 Cxcr6 ## ... ... ... ... ... ... ...# # 94338 chr19(49107658、49107658)- | 94338 Smpd3 # # 94339 chr5(176554525、176554525)- | 94339 Mmp23 # # 94340 chr1(283637899、283637899)+ | 94340 Acsl5 # # 94341 chr9(94208941、94208941)- | 94341 Kcnj13 # # 94342 chr20(7198625、7198625)+ | 94342 Bag6  ## ------- ## seqinfo: 22从rn5基因组序列(1循环)

回答4
步骤包括
a)从NCBI获取特定构建的Homo的GTF文件
你感兴趣的莎拉语。(注释声是里面的包
Bioconductor自动为你获取文件)
b)从此GTF文件中创建TXDB对象(其作为经纪读数)
c)以前从TXDB对象中提取基因。

如果您无法找到预先包装的基因组注释,这些步骤是有益的
为您最喜欢的生物体作为生物导体内的包裹。

图书馆(AnnotationHub)啊= AnnotationHub() # #找到文件gtf_humans < -查询(啊,c(“gtf”、“智人”,“grch38”,“80”))gtf_humans # #下载该文件gtfFile < -啊[[“AH47066”]]# #创建一个txdb图书馆(GenomicFeatures) txdb < makeTxDbFromGRanges (gtfFile) #可能需要一些时间。从对象humanGenes <- genes(txdb)中获取基因

回答5
获取链文件的一种方法是找到该文件
在UCSC中,下载并在使用中读取它rtracklayer :: import.chain()
更容易的解决方案是通过AnnotationHub

##加载包并查询文件以找到我们想要的文件library(AnnotationHub) ah = AnnotationHub()
## SnapshotDate():2015-05-26
查询(ah, c(“rattus”,“rn5”,“rn6”))
##带有2个记录的注释声###SnapshotDate():2015-05-26 ###$ DataProvider:ucsc ###$ species:rattus norvegicus ###$ rdataclass:chainfile ###额外的mcols():cauronyid,genome, description, tags, sourceurl, sourcetype ## # retrieve records with, e.g., 'object[["AH14745"]]' ## ## title ## AH14745 | rn6ToRn5.over.chain.gz ## AH14761 | rn5ToRn6.over.chain.gz
##了解更多你想要的文件ah["AH14761"]
##带有1 reck ###snapshotdate():2015-05-26 ################################### $种:rattus norvegicus ###$ rdataclass:chainFile ###$ title:rn5torn6.over.chain.gz ###################################分类:10116 ###$基因组:RN5 ###$ sourcetype:链###$sourceurl:http://hgdownload.cse.ucsc.edu/goldenpath/rn5/liftover/rn5torn6.over.chain.gz ###$ sourcelastmodizeddate:na ###$ scessize:na ###$标签:升降搬运,链,UCSC,Genome,同源性############# [“AH14761”]]'
##下载文件ratchain < -  ah [[“ah14761”]] ratchain
##长度链22 ##名称(22):CHR1 CHR2 CHR3 CHR8 ... CHR16 CHR17 CHR18 CHR19 CHR20 CHRX CHRM
## b)执行升降机库(rtracklayer)Lft < - 升降装置(ACSL5,棘轮)LFT
## GrangesList长度的对象1:## $ 94340 ## Granges对象有5个范围和1个元数据列:## SEQNAMES范围股票|gene_id ##    | ## [1] CHR1 [276240703,276246818] + |94340 ## [2] CHR1 [276249487,276251786] + |94340 ## [3] CHR1 [276253038,276277131] + |94340 ## [4] CHR1 [276278664,276288427] + |94340 ## [5] CHR [276288451,276290006] + |94340 ## ## ------- ## SEQINFO:1个未指定的基因组的序列;没有SEQLENG

0.3参考文献

0.4BioC2015有什么不容错过的!

如果您喜欢这个实验室,并想了解更多这方面的知识,请不要错过BioC2015的以下实验室

0.5sessioninfo()

sessioninfo()
## R version 3.2.1 (2015-06-18) ## Platform: x86_64-unknown-linux-gnu (64-bit) ## Running under: Ubuntu 14.04.2 LTS ## ## locale: ## [1] LC_CTYPE=en_US。utf - 8 LC_NUMERIC = C而= en_US。UTF-8 ## [4] LC_COLLATE=C LC_MONETARY=en_US。utf - 8 LC_MESSAGES = en_US。UTF-8 ## [7] LC_PAPER=en_US。UTF-8 LC_NAME=C LC_ADDRESS= c# ## [10] LC_TELEPHONE=C LC_MEASUREMENT=en_US。## [1] stats4 parallel stats graphics grDevices utils datasets methods base ## ##其他附加包:# # # # [1] Rattus.norvegicus_1.3.1 org.Rn.eg.db_3.1.2 [3] GO.db_3.1.2 OrganismDbi_1.11.42 # # [5] BSgenome.Rnorvegicus.UCSC.rn5_1.4.0 BSgenome_1.37.3 # # [7] rtracklayer_1.29.12 TxDb.Rnorvegicus.UCSC.rn5.refGene_3.1.3 # # [9] org.Hs.eg.db_3.1.2 RSQLite_1.0.0 # # [11] DBI_0.3.1 TxDb.Hsapiens.UCSC.hg19.knownGene_3.1.3 # # [13] GenomicFeatures_1.21.13AnnotationDbi_1.31.17 # # [15] AnnotationHub_2.1.30 RNAseqData.HNRNPC.bam.chr14_0.7.0 # # [17] GenomicAlignments_1.5.11 Rsamtools_1.21.14 # # [19] Biostrings_2.37.2 XVector_0.9.1 # # [21] SummarizedExperiment_0.3.2 Biobase_2.29.1 # # [23] GenomicRanges_1.21.16 GenomeInfoDb_1.5.8 # # [25] IRanges_2.3.14 S4Vectors_0.7.10 # # [27] BiocGenerics_0.15.3ggplot2_1.0.1 ## [29] BiocStyle_1.7.4 ## ##通过命名空间加载(并且没有附加):## [1] Rcpp_0.11.6 digest_0.6.8 mime_0.3 ## [4] R6_2.1.0 plyr_1.8.3 futile. options_1.19.8 ## [7] evaluate_0.7 httr_1.0.0 BiocInstaller_1.19.8 ## [10] zlibbioc_1.15.0 curl_0.9.1 rmarkdown_0.7 ## [13] proto_0.3-10 labeling_0.3 BiocParallel_1.3.34 ## [16] stringr_1.0.0 RCurl_1.95-4.7 biomaRt_2.25.1 ## [19] munsell_0.4.2 shiny_0.12.1 httpv_1 .3.2 #[22] htmltools_0.2.6 interactiveDisplayBase_1.7.0 codetools_0.2-14 ## [25] XML_3.98-1.3 mass_4.3 -43 bitops_1.0-6 ## [28] RBGL_1.45.1 grid_3.2.1 xtable_1.7-4 ## [31] gtable_0.1.2 magrittr_1.5 formatR_1.2 ## [34] scales_0.2.5 graph_1.47.2 stringi_0.5-5 ## [37] reshape2_1.4.1 futile.logger_1.4.1 lambda.r_1.1.7 # [40] tools_3.2.1 yaml_2.1.13 colorspace_1.2-6 ## [43] knitr_1.10.5