bob入口_bob电竞体育官网

0.1生物导体中级实验室

练习1
找到Biocumon中的包，其中包含从UCSC生成的ucsc for tar norvegicus（汇编RN5），加载它并将其保存在一个名为“TXDB”的变量中。使用此对象，执行以下操作 -
a）找到本组装中包含的所有基因，并将其保存在一个名为'Ratenes'中。
b）大鼠中含有多少个序列？（提示：？SEQINFO）
c)“ratGenes”也包含支架——你如何将对象子集为只包含来自标准染色体的序列?
b）我对基因'ACSL5'（Entrez Gene ID = 94340）感兴趣。这是否存在于'Ratenes'中？它的染色体坐标是什么？

练习2
在UCSC提供的Bioconductor中找到保存褐家鼠全基因组序列的包装(rn5, 2012年3月)。
a)加载包并将其保存到一个名为“ratSeq”的对象中
b）存储在哪个序列信息的对象？
c）获取ACSL5的DNA序列信息，并将其存储在'ACSL5_SEQUENCE'中
d)从该序列计算GC含量。

练习3
在上面的' ratGenes '对象中，您只能得到entrez基因id，您能得到每个基因的基因名称吗?

练习4
从NCBI中获取智人的注释数据库(组装GRCh38.80)，创建一个txdb对象(类似于我们在上面的问题3中看到的)，并获得基因。(提示-涉及从头开始与GTF文件)

练习5
与UCSC浏览器跟踪基础设施一起开发的提升设备可用于转换GANGES格式的数据。我们希望将数据从RN4转换为最新的胶合RN6。
a）对RN6坐标的转换由UCSC提供的链文件定义。获取包含从RN5转换为RN6的链文件。
b)获取链文件后进行举升。

0.2解决方案

答案1

suppressPackageStartupMessages({library(" txdb . rnorvegicus . ucsc .rn5. refgene ")}) txdb <- txdb . rnorvegicus . ucsc .rn5。##列出所有序列seqinfo(ratGenes)

## Seqinfo对象拥有来自rn5基因组的2739个序列(1个圆形):## seqnames seqlengthiscircular genome ## chr1 290094216 FALSE rn5 ## chr2 285068071 FALSE rn5 ## chr3 183740530 FALSE rn5 ## chr4 248343840 FALSE rn5 ## chr5 177180328 FALSE rn5 ## ... ... ... ...## chrUn_JH620694 6347 FALSE rn5 ## chrUn_JH620695 1669 FALSE rn5 ## chrUn_JH620696 7236 FALSE rn5 ## chrUn_JH620697 3488 FALSE rn5 ## chrUn_JH620698 3129 FALSE rn5

##子集仅包含标准染色体的标准染色体< - 饥饿标准十四胞体（RATGENES）##找到基因'ACSL5'ACSL5 < -  RUENES [哪个（MCOL（RUGENES）$ GENE_ID == 94340），] ACSL5

## GRANGES对象具有1个范围和1个元数据列：## SEQNAMES范围股票|gene_id ##    | ## 94340 CHR1 [283637899,283685361] + |94340 ## ------- ## SEQINFO：来自RN5基因组的22个序列（1个圆形）

回答2

suppresspackageStartUpMessages（{库（bsgenome.rnorvegicus.ucsc.rn5）}）ratseq < -  bsgenome.rnorvegicus.ucc.rn5类（ratseq）

## [1]“bsgenome”## attr（，包装“）## [1]”bsgenome“

##获取acsl5_sequence <- getSeq(ratSeq, acsl5) ##计算GC内容letterFrequency(acsl5_sequence， "GC"， as.prob=TRUE)

## g | c# # [1，] 0.4156501

回答3

库(“Rattus.norvegicus”)

##加载所需包：加载所需包：go.db ## ##加载所需包：org.rn.eg.db ## ##现在直接获取Godb对象##直接获取OrgdB对象＃＃现在直接获取TXDB对象

##在所有entrex id和基因名称之间获取映射RuggenEnames < - 选择（Rattus.norvegicus，Ratenes $ Gene_ID，列= C（“符号”，'GeneID'），Keytype =“GeneID”）

## 'select()'返回键和列之间的1:1映射

##将Entrz ID与子集idx < - 匹配（ratgenenames $ geneid，Ratenes $ gene_id）匹配，将mactched结果添加到granges mcols（Ratenes）< -  Rugenenames [Idx，] Ratenes

## GRanges对象有17165个范围和2个元数据列:## seqnames ranges strand | GENEID SYMBOL ##    |   ## 100034253 chrX [20785115, 20818062] - | 100034253 Gnl3l ## 100036582 chr8 [20639977, 20641201] + | 100036582117149172] - | 100049583 Trex1 ## 100124593 chr8 [132020812, 132021866] + | 100124593 Cxcr6 ## ... ... ... ... ... ... ...# # 94338 chr19(49107658、49107658)- | 94338 Smpd3 # # 94339 chr5(176554525、176554525)- | 94339 Mmp23 # # 94340 chr1(283637899、283637899)+ | 94340 Acsl5 # # 94341 chr9(94208941、94208941)- | 94341 Kcnj13 # # 94342 chr20(7198625、7198625)+ | 94342 Bag6  ## ------- ## seqinfo: 22从rn5基因组序列(1循环)

回答4
步骤包括
a)从NCBI获取特定构建的Homo的GTF文件
你感兴趣的莎拉语。（注释声是里面的包
Bioconductor自动为你获取文件)
b）从此GTF文件中创建TXDB对象（其作为经纪读数）
c）以前从TXDB对象中提取基因。

如果您无法找到预先包装的基因组注释，这些步骤是有益的
为您最喜欢的生物体作为生物导体内的包裹。

图书馆(AnnotationHub)啊= AnnotationHub() # #找到文件gtf_humans < -查询(啊,c(“gtf”、“智人”,“grch38”,“80”))gtf_humans # #下载该文件gtfFile < -啊[[“AH47066”]]# #创建一个txdb图书馆(GenomicFeatures) txdb < makeTxDbFromGRanges (gtfFile) #可能需要一些时间。从对象humanGenes <- genes(txdb)中获取基因

回答5
获取链文件的一种方法是找到该文件
在UCSC中，下载并在使用中读取它rtracklayer :: import.chain（）。
更容易的解决方案是通过AnnotationHub

##加载包并查询文件以找到我们想要的文件library(AnnotationHub) ah = AnnotationHub()

## SnapshotDate（）：2015-05-26

查询(ah, c(“rattus”，“rn5”，“rn6”))

##带有2个记录的注释声##＃SnapshotDate（）：2015-05-26 ##＃$ DataProvider：ucsc ##＃$ species：rattus norvegicus ##＃$ rdataclass：chainfile ###额外的mcols（）：cauronyid，genome, description, tags, sourceurl, sourcetype ## # retrieve records with, e.g., 'object[["AH14745"]]' ## ## title ## AH14745 | rn6ToRn5.over.chain.gz ## AH14761 | rn5ToRn6.over.chain.gz

##了解更多你想要的文件ah["AH14761"]

##带有1 reck ##＃snapshotdate（）：2015-05-26 ################################### $种：rattus norvegicus ##＃$ rdataclass：chainFile ##＃$ title：rn5torn6.over.chain.gz ###################################分类：10116 ##＃$基因组：RN5 ##＃$ sourcetype：链##＃$sourceurl：http：//hgdownload.cse.ucsc.edu/goldenpath/rn5/liftover/rn5torn6.over.chain.gz ##＃$ sourcelastmodizeddate：na ##＃$ scessize：na ##＃$标签：升降搬运，链，UCSC，Genome，同源性############# [“AH14761”]]'

##下载文件ratchain < -  ah [[“ah14761”]] ratchain

##长度链22 ##名称（22）：CHR1 CHR2 CHR3 CHR8 ... CHR16 CHR17 CHR18 CHR19 CHR20 CHRX CHRM

## b）执行升降机库（rtracklayer）Lft < - 升降装置（ACSL5，棘轮）LFT

## GrangesList长度的对象1：## $ 94340 ## Granges对象有5个范围和1个元数据列：## SEQNAMES范围股票|gene_id ##    | ## [1] CHR1 [276240703,276246818] + |94340 ## [2] CHR1 [276249487,276251786] + |94340 ## [3] CHR1 [276253038,276277131] + |94340 ## [4] CHR1 [276278664,276288427] + |94340 ## [5] CHR [276288451,276290006] + |94340 ## ## ------- ## SEQINFO：1个未指定的基因组的序列;没有SEQLENG

0.3参考文献

0.4BioC2015有什么不容错过的!

如果您喜欢这个实验室，并想了解更多这方面的知识，请不要错过BioC2015的以下实验室

Bioconductor注释资源由Marc Carlson，Sonali Arora。（周三，第3期，下午1:00 PM-2:45PM）
用于高通量测序分析的Bioconductor基础数据结构的实用介绍作者:Herve Pages, Michael Lawrence。(星期三第三场，下午3时15分至5时)

0.5`sessioninfo（）`

sessioninfo（）

## R version 3.2.1 (2015-06-18) ## Platform: x86_64-unknown-linux-gnu (64-bit) ## Running under: Ubuntu 14.04.2 LTS ## ## locale: ## [1] LC_CTYPE=en_US。utf - 8 LC_NUMERIC = C而= en_US。UTF-8 ## [4] LC_COLLATE=C LC_MONETARY=en_US。utf - 8 LC_MESSAGES = en_US。UTF-8 ## [7] LC_PAPER=en_US。UTF-8 LC_NAME=C LC_ADDRESS= c# ## [10] LC_TELEPHONE=C LC_MEASUREMENT=en_US。## [1] stats4 parallel stats graphics grDevices utils datasets methods base ## ##其他附加包:# # # # [1] Rattus.norvegicus_1.3.1 org.Rn.eg.db_3.1.2 [3] GO.db_3.1.2 OrganismDbi_1.11.42 # # [5] BSgenome.Rnorvegicus.UCSC.rn5_1.4.0 BSgenome_1.37.3 # # [7] rtracklayer_1.29.12 TxDb.Rnorvegicus.UCSC.rn5.refGene_3.1.3 # # [9] org.Hs.eg.db_3.1.2 RSQLite_1.0.0 # # [11] DBI_0.3.1 TxDb.Hsapiens.UCSC.hg19.knownGene_3.1.3 # # [13] GenomicFeatures_1.21.13AnnotationDbi_1.31.17 # # [15] AnnotationHub_2.1.30 RNAseqData.HNRNPC.bam.chr14_0.7.0 # # [17] GenomicAlignments_1.5.11 Rsamtools_1.21.14 # # [19] Biostrings_2.37.2 XVector_0.9.1 # # [21] SummarizedExperiment_0.3.2 Biobase_2.29.1 # # [23] GenomicRanges_1.21.16 GenomeInfoDb_1.5.8 # # [25] IRanges_2.3.14 S4Vectors_0.7.10 # # [27] BiocGenerics_0.15.3ggplot2_1.0.1 ## [29] BiocStyle_1.7.4 ## ##通过命名空间加载(并且没有附加):## [1] Rcpp_0.11.6 digest_0.6.8 mime_0.3 ## [4] R6_2.1.0 plyr_1.8.3 futile. options_1.19.8 ## [7] evaluate_0.7 httr_1.0.0 BiocInstaller_1.19.8 ## [10] zlibbioc_1.15.0 curl_0.9.1 rmarkdown_0.7 ## [13] proto_0.3-10 labeling_0.3 BiocParallel_1.3.34 ## [16] stringr_1.0.0 RCurl_1.95-4.7 biomaRt_2.25.1 ## [19] munsell_0.4.2 shiny_0.12.1 httpv_1 .3.2 #[22] htmltools_0.2.6 interactiveDisplayBase_1.7.0 codetools_0.2-14 ## [25] XML_3.98-1.3 mass_4.3 -43 bitops_1.0-6 ## [28] RBGL_1.45.1 grid_3.2.1 xtable_1.7-4 ## [31] gtable_0.1.2 magrittr_1.5 formatR_1.2 ## [34] scales_0.2.5 graph_1.47.2 stringi_0.5-5 ## [37] reshape2_1.4.1 futile.logger_1.4.1 lambda.r_1.1.7 # [40] tools_3.2.1 yaml_2.1.13 colorspace_1.2-6 ## [43] knitr_1.10.5

R＆Biocumon的中间实验室

Sonali Arora.

内容

0.1生物导体中级实验室

0.2解决方案

0.3参考文献

0.4BioC2015有什么不容错过的!

0.5`sessioninfo（）`

R＆Biocumon的中间实验室

Sonali Arora.

内容

0.1生物导体中级实验室

0.2解决方案

0.3参考文献

0.4BioC2015有什么不容错过的!

0.5sessioninfo（）

0.5`sessioninfo（）`