内容

1安装

来源(“//www.anjoumacpherson.com/biocLite.R”)biocLite(“GOpro”,依赖= TRUE)

2加载

安装包后,可以将其加载到R工作区类型中

库(还装有)

3.概述

本文档提供了GOpro包的概述。这个包是用来确定基因组和发现这些基因组的特征功能的。它允许通过最具特征的生物功能来解释基因组。它提供了一个函数findGO这是基于方法集的。其中一种方法允许在至少两个不同的组(即不同医疗条件的患者)之间确定显著不同的基因-具有多重测试校正的方差分析测试。它还提供了两种基因分组方法。其中一种是所谓的利用Tukey方法的两两比较。通过这种方法确定基因的谱,即根据基因表达,根据给定队列之间表达的差异对基因进行分组。另一种分组方法是层次聚类。该包提供了一种方法,用于为先前获得的组寻找最具特征的基因本体项,使用单侧Fisher检验来过度表示基因本体项。如果基因按层次聚类进行分组,则为所有可能的组(树状图中的每个节点)找到最具特征的函数。

4细节

基因必须用基因别名命名,并且每个队列的基因必须按照相同的顺序排列。

4.1根据基因表达来确定显著不同的基因

选择统计学上表达差异较大的基因进行方差分析。的topAOV参数表示要选择的显著不同基因的最大数目。方差分析检验的显著性水平由sig.levelAOV参数。
该阈值被用作多重测试中BH校正的显著性水平。在测试的p值相等的情况下(低于给定的阈值),测试的p值与编号为的基因相同的所有基因topAOV值包含在结果中。

4.2根据基因的相似性进行分组

基因分组有两种方法。属性指定它们分组参数。第一个使用Tukey测试的函数叫做when分组=“图基”函数调用第二个函数“集群”价值。

4.2.1均采用Tukey检验进行两两比较

Tukey 's测试是根据基因谱对基因进行分组的。的sig.levelTUK参数表示Tukey检验的显著性水平。对每个基因进行双侧Tukey 's检验。队列中的均值表达式按升序排列,并对检验结果进行了调整。所有具有相同均数顺序和相同测试结果的基因被分组在一起。即符号结肠膀胱= <白血病表示在结肠癌队列中计算的特定基因的平均表达在统计学上与膀胱癌队列相同。上述队列测定的两个平均值在统计学上都低于白血病队列测定的平均表达。

4.2.2分层聚类

采用层次聚类方法对基因进行不同程度的分类。在这种情况下,所有聚类都要进行进一步分析。的clust.metric参数是一种计算基因之间距离的方法clust.method是否采用聚类方法聚类基因dist.matrix如果可用,距离矩阵是可选参数clust.metric方法对于用户是不够的。

4.3寻找特征基因本体术语

对于每个指定的组org.Hs.eg.db搜索所有相关的GO术语。计算每一组GO项的计数数。然后应用Fisher 's检验,为每组基因找到最具特征的GO项。的minGO而且maxGO参数表示每个GO项注释的基因计数范围。所有计数高于或低于此范围的GO项在分析中被省略。它可以排除非常罕见或非常常见的基因本体术语。要搜索GO术语的基因本体域可以由参数。可能的域是:“曼氏金融”(分子功能),“英国石油公司”(生物过程),以及“CC”(蜂窝组件)。的sig.levelGO参数指定Fisher检验的显著性水平(包括多重检验的校正)。

5数据

本例中使用的数据来自癌症基因组图谱.它们通过RTCGA下载。PANCAN12包。数据代表从每个患者(样本)的16115个基因中随机选择的300个基因的表达。包括三个队列:急性髓样白血病、结肠癌和膀胱癌。数据就存储在这里还装有包作为MultiAssayExperiment对象。

数据结构示例:

exrtcga
##在方法::show(x): MultiAssayExperiment中警告::show(x): MultiAssayExperiment过时,请运行## updateObject()
MultiAssayExperiment对象,包含3个实验,用户自定义名称和各自的类。##包含长度为3的ExperimentList类对象:##[1]白血病:300行173列的矩阵##[2]冒号:300行190列的矩阵##[3]膀胱:300行122列的矩阵##特征:## experiments() -获取ExperimentList实例## colData() -主/表型DataFrame ## sampleMap() -样本可用性DataFrame ## ' $ ', '[', '[[' -提取colData列,子集或实验## *Format() -将ExperimentList转换为长或宽DataFrame ## assays() -将ExperimentList转换为矩形矩阵列表

6例子

在extcga对象调用中使用默认参数运行分析:

findGO (exrtcga)
与7 # # DataFrame行4列# #概要GOs p.values # # <列表> <列表> <列表> # #结肠膀胱= <白血病结肠膀胱= <白血病走:0032403 0.009 # #结肠膀胱< <白血病结肠膀胱< <白血病走:0043565 0.043 # #结肠膀胱膀胱<白血病结肠= = <白血病NA # # < <结肠膀胱白血病< <结肠膀胱NA # # <膀胱=结肠白血病<结肠膀胱=结肠NA # #白血病< <结肠膀胱白血病< <结肠膀胱去:0046982 0.025 # #白血病< =结肠膀胱白血病< =膀胱NA # #基因# # <列表> # #结肠膀胱= <白血病FAM46A WASF2 # #结肠膀胱< <白血病ARID2 BPTF CCDC88A CEP110 CLCN6 ELF2 FOSB KIAA0226 LUC7L3 RNF24 UBR2 USP15 ZCCHC11 ZNF592 # #结肠膀胱= <白血病DENND4B RCOR3 # #白血病<膀胱<结肠AK1 BRI3 CCDC51 CD24 COX8A DCI FDPS FKBP9 HSD3B7 MRPL54 SDHAF1 SMAGP STAU1 SYAP1 TBRG4 TPRN WDR34 ZNF511 # #白血病<膀胱=结肠NSDHL PFKM # #白血病<结肠<膀胱BOLA1 EDF1 NDUFA1 NEDD8 PAF1 PIPSL PLXNA1 PPAP2A SAE1 SERTAD1 SLC39A1 # #白血病<结肠=膀胱NA NA NA

分析结果可以用一种更描述性的方式或简洁的方式来表示。为了得到更多描述性的结果,使用延长= TRUE选择。此外,术语定义,本体对于每个本体返回术语。

findGO(extcga, extend = TRUE)
##数据帧,1行5列## GROUP GOID ##   ## 1 1,2,3,…去:0032403,:0043565,NA,……1蛋白复合物结合,序列特异性DNA结合,NA,…与任何蛋白质复合体(两个或两个以上蛋白质的复合体,可以包括其他非蛋白质分子)有选择性地、非共价地相互作用。,Interacting selectively and non-covalently with DNA of a specific nucleotide composition, e.g. GC-rich DNA binding, or with a specific sequence motif or type of DNA e.g. promotor binding or rDNA binding.,NA,... ## ONTOLOGY ##  ## 1 MF,MF,NA,...

为了找到按层次聚类分组的基因的前2个GO术语,运行以下调用。聚类结果显示在图上。

findGO(exrtcga, topGO = 2,分组= '聚类')
##数据帧99行4列## profile GOs p.values ##    ## G1 G1 NA ## G2 G2 NA ## G3 G3 NA ## G4 G4 NA ## G5 G5 NA ## ... ... ... ...G95 G95 NA ## G96 G96 NA ## G97 G97 NA ## G98 G98 NA ## G99 G99 NA ##基因## <列表> ## G1 SMAGP ## G2 NA NA NA ## G3 HSD3B7 ## G4 PLXNA1 ## G5 AK1 ## ... ...# # G95 CCDC88A KIAA0226 LUC7L3 USP15 DENND4B ZCCHC11 ARID2 BPTF UBR2 ELF2 RCOR3 CLCN6 WASF2 ZNF592 FAM46A CEP110 RNF24 # # G96 CD24 FKBP9 # # G97 SMAGP PPAP2A HSD3B7 PLXNA1 AK1 PFKM TPRN SAE1 STAU1 SYAP1 NDUFA1 CCDC51 FDPS NSDHL MRPL54 SDHAF1 TBRG4 ZNF511 PAF1 SLC39A1 EDF1 NEDD8 BOLA1 PIPSL SERTAD1 TAX1BP3 BRI3 WDR34 COX8A DCI CD24 FKBP9 # # G98 FOSB CCDC88A KIAA0226 LUC7L3 USP15 DENND4B ZCCHC11 ARID2 BPTF UBR2 ELF2 RCOR3 CLCN6 WASF2 ZNF592 FAM46A CEP110 RNF24 # #可以SMAGP PPAP2A HSD3B7 PLXNA1 AK1PFKM TPRN sae1 stau1 syap1 ndufa1 ccdc51 FDPS NSDHL mrpl54 sdhaf1 tbrg4 znf511 paf1 slc39a1 edf1 nedd8 bola1 pipsl sertad1 tax1bp3 bri3 wdr34 cox8a dci cd24 fkbp9 fosb ccdc88a kiaa0226 luc7l3 usp15 dennd4b zcchc11 arid2 BPTF ubr2 elf2 rcor3 clcn6 wasf2 znf592 fam46a cep110 rnf24

该图还可以丰富关于树状图上每个节点的最频繁本体域的信息。

findGO(extrtcga, topGO = 2,分组= '聚类',完毕。rep = TRUE)
##数据帧99行4列## profile GOs p.values ##    ## G1 G1 NA ## G2 G2 NA ## G3 G3 NA ## G4 G4 NA ## G5 G5 NA ## ... ... ... ...G95 G95 NA ## G96 G96 NA ## G97 G97 NA ## G98 G98 NA ## G99 G99 NA ##基因## <列表> ## G1 SMAGP ## G2 NA NA NA ## G3 HSD3B7 ## G4 PLXNA1 ## G5 AK1 ## ... ...# # G95 CCDC88A KIAA0226 LUC7L3 USP15 DENND4B ZCCHC11 ARID2 BPTF UBR2 ELF2 RCOR3 CLCN6 WASF2 ZNF592 FAM46A CEP110 RNF24 # # G96 CD24 FKBP9 # # G97 SMAGP PPAP2A HSD3B7 PLXNA1 AK1 PFKM TPRN SAE1 STAU1 SYAP1 NDUFA1 CCDC51 FDPS NSDHL MRPL54 SDHAF1 TBRG4 ZNF511 PAF1 SLC39A1 EDF1 NEDD8 BOLA1 PIPSL SERTAD1 TAX1BP3 BRI3 WDR34 COX8A DCI CD24 FKBP9 # # G98 FOSB CCDC88A KIAA0226 LUC7L3 USP15 DENND4B ZCCHC11 ARID2 BPTF UBR2 ELF2 RCOR3 CLCN6 WASF2 ZNF592 FAM46A CEP110 RNF24 # #可以SMAGP PPAP2A HSD3B7 PLXNA1 AK1PFKM TPRN sae1 stau1 syap1 ndufa1 ccdc51 FDPS NSDHL mrpl54 sdhaf1 tbrg4 znf511 paf1 slc39a1 edf1 nedd8 bola1 pipsl sertad1 tax1bp3 bri3 wdr34 cox8a dci cd24 fkbp9 fosb ccdc88a kiaa0226 luc7l3 usp15 dennd4b zcchc11 arid2 BPTF ubr2 elf2 rcor3 clcn6 wasf2 znf592 fam46a cep110 rnf24