内容

作者:Sonali Arora (sarora@fredhutch.org
日期:2015年7月20-22日

本课程中的材料需要R版本3.2.1和Biocumon V9.2

0.1生物导体高级实验室-探索数据

在这个实验室中,我们将探索数据集呼吸道,然后用同样的方法进行快速rna序列分析。

步骤包括-

0.2实验室的数据

该实验室中使用的数据是用地塞米松处理的气道平滑肌细胞RNA-SEQ试验,一种具有抗炎作用的合成糖皮质激素类固醇。例如,在哮喘患者中使用糖皮质激素,以防止或减少气道的炎症。在实验中,用1微摩尔地塞米松处理了四次初级人气道平滑肌细胞系18小时。对于四种细胞系中的每一种,我们具有治疗和未处理的样品。

实验参考文献为:

胡蒋为了,X,瓦格纳P, R,王Q, Klanderman B,惠特克RM,段Q, Lasky-Su J, Nikolos C, Jester W,约翰逊M, Panettieri R小,Tantisira公斤,维斯圣,陆问:“RNA-Seq转录组分析识别CRISPLD2糖皮质激素响应基因,调节细胞因子在气道平滑肌细胞功能。”公共科学图书馆。2014年6月13日;9(6):e99625。PMID:24926665.地理:GSE52778.

有关我们的分析,我们将使用数据包中的数据呼吸道

图书馆(“气道”)数据(气道)

0.3解决方案

0.3.1.答案1:加载数据

Bioconductor软件包经常为其数据对象定义并使用自定义类,这确保了所有需要的数据槽都被一致地提供并满足需求。

存储在内部的数据呼吸道是A.概括分析目的。

库(“气道”)数据(气道)se <-气道se
##类:范围:Dim:64102 8 ##元数据(1):''##测定(1):计数## Rownames(64102):ENSG000000005 ... LRG_98 LRG_99 ## ROWRANGES元数据列名称(0):## Colnames(8):SRR1039508 SRR1039509 ... SRR1039520 SRR1039521 ## GOLDATA名称(9):SAMPLENAME CELL ...样品生物素

为一个概括分析对象,呢测定包含汇总值的矩阵(或矩阵),rowData包含有关基因组范围的信息,以及冷酷包含有关样品或实验的信息。

头(测定(SE))
## SRR1039508 SRR1039509 SRR1039512 SRR1039513 SRR1039516 SRR1039517 SRR1039520 ## ENSG00000000003 679 448 873 408 1138 1047 770 ## ENSG00000000005 0 0 0 0 0 0 0 ## 467 ENSG00000000419 515 621 365 587 799 417 ## 260 ENSG00000000457 211 263 164 245 331 233##ENSG00000000460 60 55 40 35 78 63 76 ## ENSG00000000938 0 0 2 0 1 0 0 ## ## SRR1039521 572 ENSG00000000003 ## ENSG00000000005 0 ## ENSG00000000419 508 ## 229 ENSG00000000457 ## ENSG00000000460 60 ## ENSG00000000938 0
colSums(化验(se))
## SRR1039508 SRR1039509 SRR1039512 SRR1039516 SRR1039516 SRR1039516 SRR1039520 SRR1039520 SRR1039520 SRR1039521 ## 20637971 18809481 18809415 214448408 30818215 21164134134134134134111111333
冷酷(SE)
运行avgLength实验样本##        ## SRR1039508 GSM1275862 N61311 untrt untrt SRR1039508 126 SRX384345 SRS508568 ## SRR1039509 GSM1275863 N61311 trt untrt SRR1039509 126 SRX384346 SRS508567 ## SRR1039512gsm125866 N052611 untrt untrt SRR1039517 126 SRX384349 SRS508571 ## SRR1039513 GSM1275867 N052611 untrt untrt SRR1039513 87 SRX384350 SRS508572 # SRR1039516 GSM1275870 N080611 untrt untrt SRR1039516 120 SRX384353 SRS508575 # SRR1039517 GSM1275871 N080611 untrt untrt SRR1039517 126 SRX384354 SRS508576 # SRR1039520 GSM1275874 N061011 untrt untrt untrt SRR1039517 126 SRX384354 SRS508576 # SRR1039520 GSM1275874 N061011 untrt untrt untrtSRR1039520 101 SRX384357 SRS508579 ## SRR1039521 GSM1275875 N061011 trt untrt SRR1039521 98 SRX384358 SRS508580 ##生物样本# > ## SRR1039508 SAMN02422669 ## SRR1039509 SAMN02422675 ## SRR1039513 SAMN02422670 ## SRR1039517 SAMN02422673 ## SRR1039520 SAMN02422683 ## SRR1039521SAMN02422677
rowRanges (se)
## GRangesList对象的长度为64102:## $ENSG00000000003# # seqnames范围链| exon_id exon_name # # < Rle > < IRanges > < Rle > | <整数> <人物> # # [1]X(99883667、99883667)- 667145 | ENSE00001459322 # # [2] X(99885756、99885756)- | 667146 ENSE00000868868 # # [3] X(99887482、99887482)- | 667147 ENSE00000401072 # # [4] X(99887538、99887538)- | 667148 ENSE00001849132 # # [5] X [99888402,99888536) - | 667149 ENSE00003554016  ## ... ... ... ... ... ... ...# # [13] X(99890555、99890555)- 667156 | ENSE00003512331 # # [14] X(99891188、99891188)- | 667158 ENSE00001886883 # # [15] X(99891605、99891605)- | 667159 ENSE00001855382 # # [16] X(99891790、99891790)- | 667160 ENSE00001863395 # # [17] X(99894942、99894942)- | 667161 ENSE00001828996  ## ## ...## <64101 more elements> ## ------- ## seqinfo: 722个序列(1个循环)来自一个未指定的基因组

DESeq2,调用自定义类DESeqDataSet.它建在概括分析班级。

库(DESeq2)
##加载所需的包:Rcpp
dds <- DESeqDataSet(se, design = ~ cell + dex)

0.3.2答案2:rlog转型

许多常用的多维数据探索性分析的统计方法,特别是聚类和排序的方法(例如,主成分分析等),最适合(至少是近似)同方差数据;这意味着一个观察到的数量的方差(这里,一个基因的表达强度)不依赖于平均值。

在RNA-SEQ数据中,方差以平均值增长。如果一个人直接在归一化读数的矩阵上执行PCA(主成分分析),则结果通常仅取决于少数最强烈表达的基因,因为它们显示出最大的绝对差异样品之间。

作为一种解决方案,DESeq2提供了正则对数变换,简称rlog。有关更多信息和选项,请参阅?rlog的帮助。

函数RLOG返回一个概括的对象,其中包含其测定插槽中的RLOG转换值:

RLD <- rlog(dds) head(assay(RLD))
## srr1039508 srr1039509 srr1039513 srr1039516 srr1039517 srr1039520 ## ensg00000000003 9.399151 9.142478 9.501695 9.320796 9.757212 9.512183 9.617378 ## ensg00000000005 0.000000 0.000000 0.000000 0.000000 0.000000 0.000000 ## ensg00000000419 8.901283 9.113976 9.032567 9.063925 8.981930 9.108531 8.894830 ## ensg00000000457# srr1039521 ## ensg00000000003 9.315309 ## ensg00000000005 0.000000 ## ensg00000000419 9.052303 ## ensg000000004577.908338 ## ENSG00000000460 5.907824 ## ENSG00000000938 -1.637724

0.3.3.答案3:可视化数据

评估样品之间的总体相似性:哪些样本彼此相似,这是不同的?这适合实验设计的期望吗?我们使用R功能Dist计算样本之间的欧几里德距离。为了避免距离测量以少数高度变量基因为主,并且对所有基因具有大致相等的贡献,我们将其用于RLOG转换的数据

Sampledists < -  dist(t(测定(rld)))抽样者
## SRR1039508 SRR1039509 SRR1039512 SRR1039513 SRR1039516 SRR1039517 SRR1039520 ## SRR1039509 40.89060 ## 37.35231 SRR1039512 ## 50.07638 55.74569 SRR1039513 41.49280 43.61052 ## 41.98797 SRR1039516 53.58929 40.99513 57.10447 ## 57.69438 SRR1039517 47.59326 53.52310 46.13742 42.10583 ## 37.06633 SRR1039520 51.80994 34.86653 52.54968 43.21786 57.13688 ##SRR1039521 56.04254 41.46514 51.90045 34.82975 58.40428 47.90244 44.78171

注意使用功能T转换数据矩阵。我们需要这个,因为dist计算数据行之间的距离,我们的样本构成列。

0.3.3.1暖步

我们使用来自GPLots Package的功能Heatmap.2在Heatmap中可视化样本到样本距离。请注意,我们已更改了距离矩阵的行名称以包含处理类型和患者姓名而不是示例ID,以便在查看Heatmap时查看所有这些信息。

/ /使用RColorBrewer函数的时候,我们使用的是RColorBrewer函数。<- paste(rld$dex, rld$cell, sep="-") color <- colorRampPalette(rev(brewer. txt);pal(9,“蓝调”))(255)hc <- hclust(样本)热图。2(sampleDistMatrix, Rowv=as.dendrogram(hc), symm=TRUE, trace="none", col=colors, margin =c(2,10), labCol=FALSE)

0.3.3.2PCA.

另一种可视化样本到样本距离的方法是主成分分析(PCA)。在这种排序方法中,数据点(即样本)被投影到二维平面上,这样它们就会在两个方向上展开,这就解释了数据中的大部分差异。x轴是分离数据点最多的方向(或主分量)。在这个方向上包含的总方差的数量被打印在轴标签中。这里,我们使用了DESeq2附带的函数plotPCA。intgroup指定的两个术语是标记样品时感兴趣的组;它们告诉函数使用它们来选择颜色。

Plotpca(RLD,intgroup = c(“dex”,“cell”))

0.3.3.3MDS

可以使用基础R中的多维缩放(MDS)函数来制作与PCA图非常相似的另一个曲线图。当我们没有原始数据时,这是有用的,而是只有一个距离矩阵。在这里,我们有MDS绘图,用于从RLOG转换计数计算的距离:

cbind(mds, colData(rld)) qplot(X1,X2,color=dex,shape=cell,data=as.data.frame(mds))

0.3.4答案4:总结地块

我们看到细胞之间的差异是相当大的,但并不比地塞米松治疗造成的差异更大。这说明了为什么在差异检测中使用配对设计(“配对”,因为每一个dex处理过的样本都与来自同一细胞系的一个未处理样本配对)来解释这一点是重要的。在开始设置数据对象时,我们已经通过使用设计公式~ cell + dex进行了设置。

0.4参考

有关详细的分析,请参阅
-案例研究 - 如何建立概述 - 气道数据集
-使用机器学习技术探索数据

0.5BioC2015有什么不容错过的!

如果您喜欢这个实验室,并想了解更多这方面的知识,请不要错过BioC2015的以下实验室

0.6sessionInfo ()

sessionInfo ()
## R version 3.2.1 (2015-06-18) ## Platform: x86_64-unknown-linux-gnu (64-bit) ## Running under: Ubuntu 14.04.2 LTS ## ## locale: ## [1] LC_CTYPE=en_US。utf - 8 LC_NUMERIC = C而= en_US。UTF-8 ## [4] LC_COLLATE=C LC_MONETARY=en_US。utf - 8 LC_MESSAGES = en_US。UTF-8 ## [7] LC_PAPER=en_US。UTF-8 LC_NAME=C LC_ADDRESS= c# ## [10] LC_TELEPHONE=C LC_MEASUREMENT=en_US。## [1] stats4 parallel stats graphics grDevices utils datasets methods base ## ##其他附加包:# # # # [1] RColorBrewer_1.1-2 gplots_2.17.0 [3] DESeq2_1.9.23 RcppArmadillo_0.5.200.1.0 # # [5] Rcpp_0.11.6 airway_0.103.1 # # [7] Rattus.norvegicus_1.3.1 org.Rn.eg.db_3.1.2 # # [9] GO.db_3.1.2 OrganismDbi_1.11.42 # # [11] BSgenome.Rnorvegicus.UCSC.rn5_1.4.0 BSgenome_1.37.3 # # [13] rtracklayer_1.29.12 TxDb.Rnorvegicus.UCSC.rn5.refGene_3.1.3 # # [15]org.Hs.eg.db_3.1.2 RSQLite_1.0.0 # # [17] DBI_0.3.1 TxDb.Hsapiens.UCSC.hg19.knownGene_3.1.3 # # [19] GenomicFeatures_1.21.13 AnnotationDbi_1.31.17 # # [21] AnnotationHub_2.1.30 RNAseqData.HNRNPC.bam.chr14_0.7.0 # # [23] GenomicAlignments_1.5.11 Rsamtools_1.21.14 # # [25] Biostrings_2.37.2 XVector_0.9.1 # # [27] SummarizedExperiment_0.3.2 Biobase_2.29.1##[29]基因组范围_1.21.16 GenomeInfoDb_1.5.8 ## [31] IRanges_2.3.14 S4Vectors_0.7.10 ## [33] BiocGenerics_0.15.3 ggplot2_1.0.1 ## [35] BiocStyle_1.7.4 ## ##通过命名空间加载(和没有附加):## [1] bitops_1.0-6 httr_1.0.0 tools_3.2.1 ## [4] R6_2.1.0 KernSmooth_2.23-15 rpart_1 . 4.1-10 ## [7] Hmisc_3.16-0 colorspace_1.2-6 nnet_10.3 -10 ## [13] formatR_1.2 labeling_0.3 caTools_1.17.1 ## [19] scales_0.2.5 genefilter_1. 1.51.0 RBGL_1.45.1 ## [19] stringr_1.0.0 digest_0.6.8 foreign_0.8-65 ## [7]rmarkdown_0.7 htmltools_0.2.6 BiocInstaller_1.19.8 ## [25] shiny_0.12.1 BiocParallel_1.3.34 gtools_3.5.0 ## [28] acepack_1. 1.3-3.3 RCurl_1.95-4.7 magrittr_1.5 ## [31] Formula_1.2-1 futile.logger_1.4.1 munsell_0.4.2 ## [34] proto_0.3-10 stringi_0.5-5 yaml_2.1.13 ## [37] MASS_7.3-43 zlibbioc_1.15.0 plyr_1.8.3 ## [40] grid_3.2.1 gdata_2.17.0 lattice_0.20-33 ## [43] splines_3.2.1 annotate_1.47.1 locfit_1.5-9.1 ## [46] knitr_1.10.5 geneplotter_1.47.0 reshape2_1.4.1 ## [49] codetools_0.2-14 biomaRt_2.25.1 futile.options_1.0.0 ## [52] XML_3.98-1.3 evaluate_0.7 latticeExtra_0.6-26 ## [55] lambda.r_1.1.7 httpuv_1.3.2 gtable_0.1.2 ## [58] mime_0.3 xtable_1.7-4 survival_2.38-3 ## [61] cluster_2.0.2 interactiveDisplayBase_1.7.0