作者:Sonali Arora (sarora@fredhutch.org)
时间:2015年7月20-22日
本课程的材料要求R版本3.2.1和Bioconductor版本3.2
分析和理解高通量基因组数据
包、小插图、工作流
有用的链接
典型的工作流由以下步骤组成。
-实验设计
-湿式实验室准备
-高通量测序
+输出:FASTQ文件的读取及其质量分数
-对齐+许多不同的对齐器,一些专门用于不同的目的
+输出:BAM文件对齐读取
——总结
+举例来说,数感兴趣的重叠区域(如基因)
-统计分析
——理解
Bioconductor最大的优势之一是定义的类使简单的任务变得非常容易和精简。
许多生物学上有趣的问题代表了范围上的运算
GenomicRanges: summarizeOverlaps ()
GenomicRanges::最近的()
[ChIPseeker] []农庄代数
转变()
,狭窄的()
,侧面()
,发起人()
,调整()
,限制()
,削减()
" ? intra-range-methods
range ()
,reduce ()
,空白()
,分离()
覆盖()
(!)" ? inter-range-methods
findOverlaps ()
,countOverlaps ()
、……% / %
,%在%
,% %外
;联盟()
,相交()
,setdiff ()
,punion ()
,pintersect ()
,psetdiff ()
summarizeexperiment类是一个类似矩阵的容器,其中行表示感兴趣的范围(作为' GRanges or GRangesList-class '),列表示样本(样本数据总结为' DataFrame-class ')
示例-读入BAM文件
的GenomicAlignments包用于输入与参考基因组对齐的读数。在下一个示例中,我们将读入一个BAM文件,并具体地读入支持表项的读
外显子剪接横跨14号染色体19653773位置。
这个包RNAseqData.HNRNPC.bam.chr14_BAMFILES包含8个BAM文件。我们将只使用第一个BAM文件。我们将加载软件包和数据包,构造一个农庄与我们的领域感兴趣,并加以利用summarizeJunctions ()
在我们感兴趣的地区寻找读物。
# # 1。加载软件包库(genome icranges)库(genome icalignments) ## 2。加载样本数据库('RNAseqData.HNRNPC.bam.chr14') bf <- BamFile(RNAseqData.HNRNPC.bam. rnaseqdata . hnrnpc .chr14')chr14_BAMFILES[[1]], asMates=TRUE) ## 3。定义我们的“感兴趣的区域”roi <- GRanges("chr14", IRanges(19653773, width=1)) ## 4。对齐,连接,重叠我们的roi paln <- readGAlignmentsList(bf) j <- summarizejoins (paln, with.revmap=TRUE) j_overlap <- j[j %over% roi] ## 5。支持读取paln[j_overlap$revmap[[1]]]
##长度为8的GAlignmentsList对象:## [[1]]## GAlignments对象,2对齐和0元数据列:## seqnames strand cigar qwidth开始结束宽度njunc# # [1] chr14 - 66M120N6M 72 19653707 19653898 192 1 ## [2] chr14 + 7m1270n65m72 19652348 19653689 1342 1 ## ## [[2]] ## GAlignments对象,2对齐和0元数据列:## seqnames绞线雪茄qwidth开始结束宽度njunc# # [1] chr14 - 66M120N6M 72 19653707 19653898 192 1 ## [2] chr14 + 72M 72 19653686 19653757 72 0 ## ## [[3]] ## GAlignments对象2对齐和0元数据列:## seqnames绞线雪茄qwidth开始结束宽度njunc# # [1] chr14 + 72M 72 19653675 19653746 72 0 ## [2] chr14 - 65M120N7M 72 19653708 19653899 192 1 ## ##…## <5个更多的元素> ## ------- ## seqinfo:来自未知基因组的93个序列
AnnotationHub是一个web客户端,可以浏览和
从UCSC, NCBI等各种数据库下载生物文件。
使用此包允许用户直接获取文件,而不需要
找出文件在UCSC上的位置,下载并管理
本地机器上的多个文件。
library(注解hub) ah =注解hub ()
##数据可从以下来源唯一(ah$dataprovider)
[1]“Ensembl”“EncodeDCC”##[3]“UCSC”“Inparanoid8”##[5]“NCBI”“NHLBI”##[7]“ChEA”“pasazar”##[9]“NIH通路交互数据库”“RefNet”##[11]“Haemcode”“GEO”##[13]“BroadInstitute”“ftp://ftp.ncbi.nlm.nih.gov/gene/DATA/”##[15]“dbSNP”
##以下类型的文件可以从集线器唯一检索(ah$sourcetype)
[1] "FASTA" "BED" "UCSC track" "GTF" "Inparanoid" "NCBI/blast2GO" ## [7] "TwoBit" "Chain" "GRASP" "Zip" "CSV" "BioPax" ## [13] "BioPaxLevel2" "RData" "BigWig" "tar.gz" "tab" "NCBI/ensembl" ## [19] "VCF"
##我们将从FASTA文件## 'Homo_sapiens.GRCh38.cdna.all下载所有的智人cDNA序列。fa'从Ensembl使用## r Biocpkg(“AnnotationHub”)'。ah2 <- query(ah, c("fasta", "homo sapiens", "Ensembl")) fa <- ah2[["AH18522"]] fa
FaFile ##路径:/home/ubuntu/。AnnotationHub/22617 ## index: /home/ubuntu/.AnnotationHub/25666 ## isOpen: FALSE ## yieldSize: NA
dbfile (txdb)
GenomicFeatures:: makeTxDbFrom * ()
外显子()
,成绩单()
,基因()
,cd ()
(编码序列)发起人()
和朋友exonsBy ()
和朋友-基因外显子,转录本,…keytypes ()
,列()
,键()
,select ()
,mapIds ()
库(" txdb . hsapiens . ucsc .hg19. knowngene ") txdb <- txdb . hsapiens . ucsc .hg19。knownGene txdb
# # TxDb对象:# # # Db型:TxDb支持包:# # # # # # GenomicFeatures数据来源:UCSC基因组:# # # # # # hg19生物:智人# # # TaxID: 9606 # # # UCSC的表:knownGene # # #资源URL: http://genome.ucsc.edu/ # # #的基因类型ID: Entrez基因ID # # #完整数据集:是的# # # miRBase构建ID: GRCh37 # # # transcript_nrow: 82960 # # # exon_nrow: 289969 # # # cds_nrow: 237533 # # # Db由:GenomicFeatures包从Bioconductor # # #创建时间:2015-05-12 10:59:39 -0700(周二,2015年5月12日)## #基因组特征创建时的版本:1.21.3 RSQLite创建时的版本:1.0.0 ## DBSCHEMAVERSION: 1.1
方法(类=类(txdb))
<- ExpressionSet annotatedDataFrameFrom ## [5] as。list asBED asGFF assayData ## [9] assayData<- cds cdsBy cdsByOverlaps ## [13] coerce columns combine contents ## [17] dbInfo dbconn dbfile dbmeta ## [21] dbschema disjointExons distance exons ## [25] exonsBy exonsByOverlaps extractUpstreamSeqs featureNames ## [29] featureNames<- fiveUTRsByTranscript genes initialize ## [33] intronsByTranscript isActiveSeq isActiveSeq<- isNA ## [37] keys keytypes mapIds mapToTranscripts ## [41] mappedkeys metadata microRNAs nhit ## [45] organism promoter revmapsample ## [49] sampleNames sampleNames<- saveDb select ## [53] seqinfo seqinfo<- seqlevels0 show ## [57] species storageMode storageMode<- tRNAs ## [61] taxonomyId threeUTRsByTranscript transcripts transcriptsBy ## [65] transcriptsByOverlaps updateObject ## see '?方法来访问帮助和源代码
基因(txdb)
##具有23056个范围和1个元数据列的GRanges对象:## seqnames ranges strand | gene_id ## | ## 1 chr19 [58858172,58874214] - | 1 ## 10 chr8 [182487555,18258723] + | 10 ## 100 chr20 [43248163,43280376] - | 100 ## 1000 chr18 [25530930,25757445] - | 1000 ## 10000 chr1 [243651535,244006886] - | 10000 ## ... ... ... ... ... ...## 9991 chr9 [114979995, 115095944] - | 9991 ## 9992 chr21 [35736323,35743440] + | 9992 ## 9993 chr22 [19023795, 19109967] - | 9993 ## 9994 chr6 [90539619,90584155] + | 9994 ## 9997 chr22 [50961997,50964905] - | 9997 ## ------- # seqinfo:来自hg19基因组的93个序列(1个循环)
TxDb
keytypes ()
,列()
,键()
,select ()
,mapIds ()
library(org. hs . exe .db) select(org. hs . exe .db, c("BRCA1", "PTEN"), c("ENTREZID", "GENENAME"), "SYMBOL")
## 'select()'返回键和列之间的1:1映射
BRCA1 672乳腺癌1,早发性PTEN 5728磷酸酶和紧张蛋白同源物
keytypes (org.Hs.eg.db)
##[19]“accnum”“alias”“ensembl”“ensemblprot”“ensembltrans”“entrezid”##[7]“酶”“证据”“证据all”“genename”“go”“goall”##[13]“ipi”“地图”“omim”“本体”“ontologyall”“路径”##[19]“pfam”“pmid”“prosite”“refseq”“符号”“ucsckg”##[25]“unigene”“uniprot”
列(org.Hs.eg.db)
##[19]“accnum”“alias”“ensembl”“ensemblprot”“ensembltrans”“entrezid”##[7]“酶”“证据”“证据all”“genename”“go”“goall”##[13]“ipi”“地图”“omim”“本体”“ontologyall”“路径”##[19]“pfam”“pmid”“prosite”“refseq”“符号”“ucsckg”##[25]“unigene”“uniprot”
Bioconductor包按以下方式组织biocViews.人们可以回答一些问题生物问题使用各种包。下面的一些条目测序其他条款和有代表性的套餐包括:
单核苷酸多态性以及其他变体,例如,VariantAnnotation,VariantFiltering,h5vc.
微生物组宏基因组测序,例如,metagenomeSeq,phyloseq,DirichletMultinomial.
sessionInfo ()
sessionInfo ()
## R版本3.2.1(2015-06-18)##平台:x86_64-unknown-linux-gnu(64位)##运行在Ubuntu 14.04.2 LTS下## ## locale: ## [1] LC_CTYPE=en_US。UTF-8 LC_NUMERIC=C LC_TIME=en_US。UTF-8 ## [4] LC_COLLATE=C LC_MONETARY=en_US。utf - 8 LC_MESSAGES = en_US。UTF-8 ## [7] LC_PAPER=en_US。UTF-8 LC_NAME=C LC_ADDRESS= c# # [10] lc_phone =C LC_MEASUREMENT=en_US。UTF-8 LC_IDENTIFICATION=C ## ##附加的基本包:## [1]stats4并行统计图形grDevices utils数据集方法基础## ##其他附加包:# # # # [1] org.Hs.eg.db_3.1.2 RSQLite_1.0.0 [3] DBI_0.3.1 TxDb.Hsapiens.UCSC.hg19.knownGene_3.1.3 # # [5] GenomicFeatures_1.21.13 AnnotationDbi_1.31.17 # # [7] AnnotationHub_2.1.30 RNAseqData.HNRNPC.bam.chr14_0.7.0 # # [9] GenomicAlignments_1.5.11 Rsamtools_1.21.14 # # [11] Biostrings_2.37.2 XVector_0.9.1 # # [13] SummarizedExperiment_0.3.2 Biobase_2.29.1 # # [15] GenomicRanges_1.21.16 GenomeInfoDb_1.5.8 # # [17] IRanges_2.3.14 S4Vectors_0.7.10 # # [19] BiocGenerics_0.15.3 ggplot2_1.0.1 # # [21]BiocStyle_1.7.4 ## ##通过命名空间加载(并且没有附加):## [1] reshape2_1.4.1 colorspace_1.2-6 htmltools_0.2.6 ## [4] rtracklayer_1.29.12 yaml_2.1.13 interactiveDisplayBase_1.7.0 ## [7] XML_3.98-1.3 BiocParallel_1.3.34 lambda.r_1.1.7 ## [10] plyr_1.8.3 string_1 .0.0 zlibbioc_1.15.0 ## [13] munsell_0.4.2 gtable_0.1.2 futil .logger_1.4.1 ## [19] codetools_0.2-14 evaluate_0.7 labeling_0.3 ## [19] knitr_1.10.5 biomaRt_2.25.1 httpuv_1.3.2 ## [25] Rcpp_0.11.6 xtable_1.7-4 scales_0.2.5 ## [28] formatR_1.2mime_0.3 digest_0.6.8 ## [31] stringi_0.5-5 shiny_0.12.1 grid_3.2.1 ## [34] tools_3.2.1 bitops_1.0-6 magrittr_1.5 ## [37] RCurl_1.95-4.7 futile.options_1.0.0 MASS_7.3-43 ## [40] rmarkdown_0.7 httr_1.0.0 R6_2.1.0