ToPASeq 1.14.1
注意:的ToPASeq由于包维护人员的更改,包当前正在进行重大的返工。中实现的基于拓扑的方法,建议使用EnrichmentBrowser或者是石墨包。
我们从装载包裹开始。
库(ToPASeq)
对于RNA-seq数据,我们考虑了四种主要人类气道平滑肌细胞系在两种条件下的转录组谱:对照和地塞米松治疗Himes等人,2014年.
我们装载气道数据集
库(气管)数据(气管)
为了进一步分析,我们只保留注释为ENSEMBL基因ID的基因。
airSE <-气道[grep("^ENSG", rownames(气道)),]dim(airSE)
## [1] 63677
试验(airSE) [1:4, 1:4]
## srr1039508 srr1039509 srr1039512 srr1039513 ## ensg00000000003 679 448 873 408 ## ensg00000000005 0000 ## ensg00000000419 467 515 621 365 ## ensg00000000457 260 211 263 164
的EnrichmentBrowser包中包含了已建立的功能limma用于差分表达式分析的包。这涉及到轰
当应用于RNA-seq数据时。或者,RNA-seq数据的差异表达分析也可以基于负二项分布进行刨边机而且DESeq2.
这可以使用函数来执行EnrichmentBrowser:蒂安娜
并假设一些标准化的变量名:
有关实验设计的更多信息,请参阅Limma用户指南,第九章。
对于气道数据集,集团变量表示细胞系是否用地塞米松处理(1)或(0)。
airSE$GROUP <- ifelse(airSE$ dex == "trt", 1,0) table(airSE$GROUP)
## ## 0 1 ## 4 4
配对样品,或一般样品批次/块,可以通过a定义块中的列。colData
槽。对于气道数据集,样本块对应于四种不同的细胞系。
airSE$BLOCK <-气道$cell表(airSE$BLOCK)
## ## n052611 n061011 n080611 n61311 ## 2 2 2 2 2
对于RNA-seq数据,使用迪娜
函数可以用来进行两组之间的差异表达分析limma(包括轰
转换),或者是经常使用的刨边机或DESeq2包中。在这里,我们使用基于的分析刨边机.
airSE <- deAna(airSE, de.method="edgeR")
##排除50740个不满足最小cpm阈值的基因
rowData (airSE use.names = TRUE)
##数据帧与12937行和3列## FC ADJ.PVAL edgeR。统计## <数字> <数字> <数字> ## ENSG00000000003 -0.404945626610932 0.002134534777531 0.0915691945173217 5.90960619951562 ## ENSG00000000457 0.0143477674070905 0.922279475398735 0.0233923316993606 ## ENSG00000000460 -0.141173372957313 0.619013213521584 0.492929955080683 ## ENSG00000000971 0.402240426474171 27.8509962017613 ## ... ... ... ...## ENSG00000273270 -0.12979385333726 0.901598359265221 ## ENSG00000273290 0.505580471641003 0.00639218387702814 23.0905678847793 ## ENSG00000273311 0.00161557580855132 0.996356136959404 8.04821151395742e-05 ## ENSG00000273329 -0.222817127090519 0.388294594068834 1.4272332550574 ## ENSG00000273344 0.0151704005097405 0.005435032737617
路径通常用图表示,其中节点是基因,节点之间的边表示基因之间的相互作用。
的石墨包提供了来自KEGG、Biocarta、Reactome和NCI等主要途径数据库的途径集合。
在这里,我们检索了人类KEGG通路。
Library (graphite) pwys <- pathways(species="hsapiens", database="kegg") pwys
KEGG路径的hsapiens ## 301项,检索于27-04-2018
由于气道数据集使用ENSEMBL基因id,但路径节点基于NCBI Entrez基因id,
节点(pwys [[1]])
# #[1]“ENTREZID: 10327”“ENTREZID: 124”“ENTREZID: 125”“ENTREZID: 126 # #”[5]“ENTREZID: 127”“ENTREZID: 128”“ENTREZID: 130”“ENTREZID: 130589 # #”[9]“ENTREZID: 131”“ENTREZID: 160287”“ENTREZID: 1737”“ENTREZID: 1738 # #”[13]“ENTREZID: 2023”“ENTREZID: 2026”“ENTREZID: 2027”“ENTREZID: 217 # #[17]“ENTREZID: 218”“ENTREZID: 219”“ENTREZID: 220”“ENTREZID: 2203 # #[21]“ENTREZID: 221”“ENTREZID: 222”“ENTREZID: 223”“ENTREZID: 224 # #[25]“ENTREZID: 226”“ENTREZID: 229”“ENTREZID: 230”“ENTREZID: 2538 # # [29]“ENTREZID: 26330“ENTREZID: 2597“ENTREZID: 2645”“ENTREZID: 2821 # #[33]“ENTREZID: 3098”“ENTREZID: 3099”“ENTREZID: 3101”“ENTREZID: 387712 # #[37]“ENTREZID: 3939”“ENTREZID: 3945”“ENTREZID: 3948”“ENTREZID: 441531 # #[41]“ENTREZID: 501”“ENTREZID: 5105”“ENTREZID: 5106”“ENTREZID: 5160 # #[45]“ENTREZID: 5161”“ENTREZID: 5162”“ENTREZID: 5211”“ENTREZID: 5213 # #[49]“ENTREZID: 5214”“ENTREZID: 5223”“ENTREZID: 5224”“ENTREZID: 5230 # #[53]“ENTREZID: 5232”“ENTREZID: 5236”“ENTREZID: 5313”“ENTREZID: 5315”## [57] " entrezid:55276" " entrezid:55902" " entrezid:57818" " entrezid:669" ## [61] " entrezid:7167" " entrezid:80201" " entrezid:83440" " entrezid:84532" ## [65] " entrezid:8789" " entrezid:92483" " entrezid:92579" " entrezid:9562"
我们首先将气道数据集中的基因id从ENSEMBL映射到ENTREZ id。
airSE <- idMap(airSE, org="hsa", from="ENSEMBL", to="ENTREZID")
##加载所需的包:org.Hs.eg.db
##加载所需的包:AnnotationDbi
# #
## 'select()'返回1:多个键和列之间的映射
##排除了1133个没有对应的基因。ID
##遇到8个来自。IDs with >1 corresponding to.ID (a single to.ID was chosen for each of them)
接下来,我们定义所有调整过的基因p-value < 0.01为差异表达,并收集其log2倍变化作进一步分析。
$ADJ. all <- names(airSE) de.ind <- rowData(airSE)PVAL < 0.01 de <- rowData(airSE)$FC[de。name (de) <- all[de. Ind]
这就产生了2426个DE基因——总共11780个基因。
长度(全部)
## [1] 11795
长度(反)
## [1] 2426
途径调控评分(PRS)通过对下游DE基因数量加权单个基因水平的log2倍变化来整合途径拓扑。加权绝对折叠变化在整个途径和统计显著性评估基因的排列。易卜拉欣等,2012
Res <- prs(de, all, pwys[1:100], nperm=100)
9个pys被过滤掉了
头(res)
## nPRS p.value ##花生四烯酸代谢12.553137 0.00990099 ## cmp - pkg信号通路10.836744 0.00990099 ##组氨酸代谢10.452106 0.00990099 ##亚油酸代谢9.905204 0.00990099 ## cAMP信号通路8.612164 0.00990099 ##甘氨酸、丝氨酸和苏氨酸代谢7.888651 0.00990099
对于所选择的通路,可以通过得到相应的基因权重(下游DE基因的数量)
ind <- grep("Ras信号通路",names(pwys)) weights <- prsWeights(pwys[[ind]], de, all) weights
# # 572 5898 3479 10928 3082 9846 4254 # # 0 6 0 4 5 0 0 # # 5601 5291 387 11186 10235 10681 2255 0 0 0 1 # # 21 0 5 # # 998 5566 9462 5337 5063 2260 2782 22 # # 0 0 0 1 0 0 # 25 # 8315 5594 6655 6789 2254 5595 # # 0 0 0 0 0 0 0 # # 3551 208 8605 10156 4233 5599 8036 # # 0 0 1 0 0 0 0 # # 5878 4790 5602 2549 5869 2784 55770 # # 0 0 1 1 0 0 0 # # 7422 5924 2246 5159 59345 6654 5906 # 22 # 5 0 0 0 0 # 23 # 5321 10000 8503 5228 7010 5290 81579 # # 1 0 4 0 0 4 0 # # 5335 6237 2002 5605 5908 2791 91860 # # 21 1 0 0 00 0 # # 5338 25759 4301 10298 5894 3845 22800 # # 0 0 0 0 2 0 21 # # 5156 2113 5879 51196 2250 2247 2252 # 21 # 2 0 2 0 0 0 # # 3480 8844 207 1969 5567 27 23179 # 23 # 2 0 0 0 1 7 # # 805 5899 5868 56034 5295 5921 1956 # # 0 0 0 5 4 0 0 # # 4915 53358 5058 7424 284 5578 5922 # # 0 1 0 5 5 0 0 # # 8817 3815 2114 22808 808 5900 6464 7 # # 0 0 0 0 0 0 # # 2264 5966 2277 382 3481 5604 5881 # # 2 0 0 0 0 1 2 # # 100271927 80310 3643 598 5293 2783 55970 # # 0 0 0 0 4 0 # 23 # 5970 7423 2787 3265 9610 11145 2788 0 0 # #23.0 2 0 0 ## 627 2885 5781 5062 29110 1946 1435 ## 0 0 1 0 0 0 0 ## 8398 4303 4908 22821 54331 5320 4763 ## 0 0 0 0 23 1 0 ## 8831 5154 801 4893 1147 5863 1945 ## 0 0 23 0 0 0 5
检测下游DE基因数量最多的基因
权重[Weights == max(Weights)]
## 59345 5567 2783 2787 54331 801 ## 23 23 23 23 23 23 23
揭示了重要的上游调控因子,包括几个G蛋白亚基,如亚基β 2 (Entrez Gene ID2783).