使用fgsea的包

fgsea是一个快速的R-package preranked基因集富集分析(GSEA)。这个包可以快速、准确地计算任意低GSEA假定值的一组基因集。假定值的估计是基于自适应多层次分割蒙特卡罗方案。看到预印对算法的细节。

加载必要的库

图书馆(fgsea)图书馆(data.table)图书馆(ggplot2)

快速运行

加载路径和能够统计和设置随机种子:

数据(examplePathways)数据(exampleRanks)set.seed(42)

fgsea:

fgseaRes < -fgsea(通路=examplePathways,统计=exampleRanks,minSize =15,最大尺寸=500年)

生成的表包含浓缩分数和假定值:

(fgseaRes [订单(pval)])
# #通路pval padj # # 1: 5990979 _cell_cycle, _Mitotic 6.690481 e-27 3.920622 e-24 # # 2: 5990980 _cell_cycle 3.312565 e-26 9.705816 e-24 # # 3: 5991851 _mitotic_prometaphase 8.470173 e-19 1.654507 e-16 # # 4: 5992217 _resolution_of_sister_chromatid_cohesion 2.176649 e-18 3.188791 e-16 # # 5: 5991454 _m_phase 1.873997 e-14 2.196325 e-12 # # 6: 5991599 _separation_of_sister_chromatids 8.733223 e-14 8.529448 e-12 # # log2err ES NES大小叶片# # 1:1.3422338 0.5594755 2.769070 317 66336,66977,12442,107995,66442,12571,……# # 2:1.3267161 0.5388497 2.705894 369 66336,66977,12442,107995,66442,19361,……# # 3:1.1239150 0.7253270 2.972690 82 66336,66977,12442,107995,66442,52276,……# # 4:1.1053366 0.7347987 2.957518 74 66336,66977,12442,107995,66442,52276,……# # 5:0.9759947 0.5576247 2.554076 173 66336,66977,12442,107995,66442,52276,……# # 6:0.9545416 0.6164600 2.670030 116 66336,66977,107995,66442,52276,67629,……

正如你所看到的警告,fgsea有一个默认的下限吗每股收益= 1平台以及估计假定值。如果你需要估计假定值更准确地说,你可以设置每股收益参数为零的fgsea函数。

fgseaRes < -fgsea(通路=examplePathways,统计=exampleRanks,每股收益=0.0,minSize =15,最大尺寸=500年)(fgseaRes [订单(pval)])
# #通路pval padj # # 1: 5990980 _cell_cycle 2.535645 e-26 1.485888 e-23 # # 2: 5990979 _cell_cycle, _Mitotic 9.351994 e-26 2.740134 e-23 # # 3: 5991851 _mitotic_prometaphase 3.633805 e-19 7.098033 e-17 # # 4: 5992217 _resolution_of_sister_chromatid_cohesion 2.077985 e-17 3.044248 e15汽油# # 5:5991454 _m_phase 2.251818 e-14 2.639131 e-12 # # 6: 5991502 _mitotic_metaphase_and_anaphase 3.196758 e-14 3.122167 e-12 # # log2err ES NES大小叶片# # 1:1.3344975 0.5388497 2.664606 369 66336,66977,12442,107995,66442,19361,……# # 2:1.3188888 0.5594755 2.740246 317 66336,66977,12442,107995,66442,12571,……# # 3:1.1330899 0.7253270 2.926512 82 66336,66977,12442,107995,66442,52276,……# # 4:1.0768682 0.7347987 2.920436 74 66336,66977,12442,107995,66442,52276,……# # 5:0.9759947 0.5576247 2.547515 173 66336,66977,12442,107995,66442,52276,……# # 6:0.9653278 0.6052907 2.639370 123 66336,66977,107995,66442,52276,67629,……

一个可以使一个浓缩情节的途径:

plotEnrichment(examplePathways [[“5991130 _programmed_cell_death”]],exampleRanks)+实验室(title =“程序性细胞死亡”)

或者让一堆表情节选择途径:

topPathwaysUp < -fgseaRes[西班牙文>0][(订单(pval),n =10),途径)topPathwaysDown < -fgseaRes[西班牙文<0][(订单(pval),n =10),途径)topPathways < -c(topPathwaysUp牧师(topPathwaysDown))plotGseaTable(examplePathways [topPathways], exampleRanks fgseaRes,gseaParam =0.5)

从上面的图可以看到,有非常相似的路径表中(例如5991502 _mitotic_metaphase_and_anaphase5991600 _mitotic_anaphase)。只选择独立路径可以使用collapsePathways功能:

collapsedPathways < -collapsePathways(fgseaRes [订单(pval)] [padj<0.01),examplePathways exampleRanks)mainPathways < -fgseaRes[通路%,%collapsedPathways美元mainPathways] [订单(- - - - - -NES),途径)plotGseaTable(examplePathways [mainPathways], exampleRanks fgseaRes,gseaParam =0.5)

将结果保存在一个文本格式表数据:::写入文件函数可以使用:

写入文件(fgseaRes文件=“fgseaRes.txt”,9月=\ t,sep2 =c(”“,”“,”“))

使前缘更可读可转换使用mapIdsList(类似于AnnotationDbi: mapIds这里()函数和一个相应的数据库org.Mm.eg.db鼠标):

图书馆(org.Mm.eg.db)
# #警告:替换之前的进口“跑龙套::findMatches”# #的S4Vectors:: findMatches装船时“AnnotationDbi”
fgseaResMain < -fgseaRes [匹配(mainPathways通路))fgseaResMain[,叶片:=mapIdsList(x =org.Mm.eg.db,键=叶片,keytype =“ENTREZID”,列=“象征”)]写入文件(fgseaResMain文件=“fgseaResMain.txt”,9月=\ t,sep2 =c(”“,”“,”“))

性能考虑

同时,fgsea并行使用BiocParallel包中。默认第一个注册后端返回的bpparam ()使用。调整并行可以指定BPPARAM参数用于bplapply的设置nproc参数,这是一个缩写设置BPPARAM = MulticoreParam(工人= nproc)

使用Reactome通路

为了方便有reactomePathways函数获取途径从Reactome给定的一组基因。包reactome.db需要安装。

路径< -reactomePathways(的名字(exampleRanks))fgseaRes < -fgsea(exampleRanks通路最大尺寸=500年)(fgseaRes)
# #通路pval # # 1: 5-Phosphoribose 1-diphosphate生物合成0.85468451 # # 2:四糖链接器序列需要呕吐合成0.49554367 # # 3:ABC转运蛋白在脂质稳态0.18160920 # # 4:ABC-family蛋白介导运输0.40845070 # # 5:ABO血型生物合成0.97703549 # # 6:ADP信号通过P2Y purinoceptor 1 0.00614037 # # padj log2err ES NES大小# # 1:0.94700878 0.05080541 -0.5732978 -0.7615585 1 # # 2:0.76538053 0.07362127 0.3755168 0.9660172 10 # # 3:0.51343170 0.15631240 -0.4385385 -1.2574076 12 # # 4:0.71946820 0.07687367 0.2614189 1.0268252 66 # # 5:0.99139670 0.04870109 0.5120427 0.6902345 1 # # 6:0.06350134 0.40701792 0.6097588 1.7826019 17 # #前缘# # 1:19139 # # 2:14733,20971,20970,12032,29873,218271,……# # 3:19299,27403,11307,11806,217265,27409,……# # 4:17463,26440,26444,19179,228769,56325,……14344 # # # # 5:6:14696,14702,14700,14682,14676,66066,……

从文件

也可以从之一.rnk.gmt在原始GSEA文件:

rnk。文件< -执行(“extdata”,“naive.vs.th1.rnk”,包=“fgsea”)格林尼治时间。文件< -执行(“extdata”,“mouse.reactome.gmt”,包=“fgsea”)

加载等级:

排名< -read.table(rnk.file头=真正的,colClasses =c(“性格”,“数字”))排名< -setNames(排名美元t,排名美元ID)str(排名)
# #叫num (1:12000) -63.3 -49.7 -43.6 -41.5 -33.3……# # - attr(*,“名字”)=(1:12000)从而向“170942”“109711”“18124”“12775”……

加载路径:

路径< -gmtPathways(gmt.file)str((途径)
# # 6 # # $ 1221633 _meiotic_synapsis:列表对应(1:64)“12189”“13006”“15077”“15078”……# # $ 1368092 _rora_activates_gene_expression:[1:9]从而向“11865”“12753”“12894”“18143”……# # $ 1368110 _bmal1:时钟,Npas2_activates_circadian_gene_expression:[1:16]从而向“11865”“11998”“12753”“12952”……# # $ 1445146 _translocation_of_glut4_to_the_plasma_membrane:科(55分)“11461”“11465”“11651”“11652”……# # 186574美元_endocrine-committed_ngn3 + _progenitor_cells:[1:4]从而向“18012”“18088”“18506”“53626”# # $ 186589 _late_stage_branching_morphogenesis_pancreatic_bud_precursor_cells:[1:4]从而向“11925”“15205”“21410”“246086”

和运行fgsea:

fgseaRes < -fgsea(通路、地位minSize =15,最大尺寸=500年)(fgseaRes)
# # 1 # #途径:1221633 _meiotic_synapsis # # 2: 1445146 _translocation_of_glut4_to_the_plasma_membrane # # 3: 442533 _transcriptional_regulation_of_adipocyte_differentiation_in_3t3-l1_pre-adipocytes # # 4: 508751 _circadian_clock # # 5: 5334727 _mus_musculus_biological_processes # # 6: 573389 _norc_negatively_regulates_rrna_expression # # pval padj log2err ES NES大小# # 1:0.5362069 0.7157568 0.06799226 0.2885754 0.9436316 27 # # 2:0.6763203 0.8326128 0.05629407 0.2387284 0.8456880 39 # # 3:0.1355932 0.2998401 0.18820415 -0.3640706 -1.3136692 31 # # 4:0.8220183 0.9089416 0.05070279 0.2516324 0.7284184 17 # # 5:0.3518248 0.5711062 0.08108021 0.2469065 1.0697507 106 # # 6:0.4091743 0.6153509 0.08528847 0.3607407 1.0442620 17 # #前缘# # 1:15270年,12189年,71846年,19357年# # 2:17918,19341,20336,22628,22627,20619,……# # 3:76199,19014,26896,229003,17977,17978,……# # 4:20893、59027、19883 # # 5:60406,19361,15270,20893,12189,68240,……# # 6:60406、20018、245688、20017