玉米和其他作物复杂性状的全基因组关联研究(GWAS)已经非常流行,以确定影响这些性状的基因组区域[1,2,3]。一般来说,数十万个单核苷酸多态性(SNPs)标记都使用F统计量与性状的关联进行测试,它为snp -性状关联分配了p值。然后,更详细地研究满足假发现率(FDR,某一水平α的所有显著结果中假阳性的比例)阈值的个体标记-性状关联,以揭示性状遗传结构的线索,以及未来如何最好地改进它。然而,在GWAS中许多真实的关联可能会被忽略,因为FDR的阈值可能低至α除以所测snp的总数。代谢途径分析的重点是许多基因的组合效应,根据他们的共同生物功能分组。将GWAS分析与代谢途径分析相结合,认为所有与感兴趣性状呈正相关的基因序列,无论大小如何,共同可以突出哪些序列导致作物改良机制,哪些序列值得进一步研究和操作,例如通过基因编辑。
虽然组合GWAS和路径分析在发现相关路径方面非常成功,但分析速度缓慢且繁琐,因为分析工具是用R、Perl和Bash组合编写的,并且每个分析的输出都手动输入到下一个分析[1]中。途径关联研究工具(PAST)的开发是为了促进更简单和更有效的基于gwas的代谢途径分析。PAST使用玉米进行测试,但也适用于其他物种。它追踪所有SNP标记-性状的关联,无论其显著性或大小。PAST基于链接不平衡(LD)数据将snp分组为链接块,并从每个块中识别一个标记snp。然后PAST在用户定义的tagSNP距离内识别基因,并将tagSNP的属性转移到基因上,包括等位基因效应、R2和从GWAS分析中发现的原始snp -性状关联的p值。最后,PAST使用基因效应值来计算每个通路的富集分数(ES)和p值。
PAST是Tang等人2015年描述的GWAS到通路分析的实现。
下面的代码块展示了如何使用PAST分析数据,从加载数据到绘制rugplot。
图书馆(过去)#>警告:替换以前的导入'S4Vectors::first'由'dplyr::first'当#>加载“过去”#>警告:替换以前的导入'S4Vectors::setdiff'由'dplyr::setdiff'当#>加载“过去”#>警告:替换以前的导入'S4Vectors::rename'由'dplyr::rename'当#>加载“过去”#>警告:替换以前的导入'S4Vectors::intersect'由'dplyr::intersect'#>当加载“过去”#>警告:替换以前的导入'S4Vectors::union'由'dplyr::union'当#>加载“过去”#>警告:替换之前导入的“S4Vectors::setequal”由“dplyr::setequal”#>当加载“过去”#>警告:替换以前的导入'S4Vectors::tail'由'utils::tail'当#>加载“过去”#>警告:替换以前的导入'S4Vectors::stack'由'utils::stack'当#>加载“过去”#>警告:替换以前的导入'S4Vectors::head'由'utils::head'当#>加载“过去”#>警告:替换之前导入的S4Vectors::complete。情况下的# >的统计:完成。cases' when loading 'PAST'#>警告:替换以前的导入'S4Vectors::sd'由'stats::sd'加载时# >‘过去’执行(“extdata”,“association.txt.xz”, demo_association_file =包=“过去”,mustWork =真正的)执行(“extdata”,“effects.txt.xz”, demo_effects_file =包=“过去”,mustWork =真正的)执行(“extdata”,“LD.txt.xz”, demo_LD_file =包=“过去”,mustWork =真正的)执行(“extdata”,“genes.gff”, demo_genes_file =包=“过去”,mustWork =真正的)执行(“extdata”,“pathways.txt.xz”, demo_pathways_file =包=“过去”,mustWork =真正的)
加载GWAS数据从GWAS获取统计信息和效果,并将它们存储在一起。在这个过程中,非双等位基因的数据被丢弃。下面描述了这两个文件。
关联文件- GWAS使用性状数据(关联面板中所有个体的表型测量)和基因型数据(通常是高密度SNP数据集)进行。在使用通用线性模型(GLM)或混合线性模型(MLM)进行GWAS分析后,TASSEL[2]生成输出文件,显示研究中使用的遗传标记与被研究性状之间的关联(对所使用的群体结构和相关性进行校正)。对于每个snp -性状关联,显示f统计量和p值,以及自由度、模型的误差均方、模型的R^2(由完整模型解释的总变异的部分)和标记的R^2(由标记解释的总变异的部分,但不由模型中的其他项解释)。p值和R^2值被用于每一个标记-性状关联作为PAST的输入。PAST只接受双等位基因标记;具有2个以上等位基因的基因在分析过程中被剔除。
效应文件-对于关联文件中的每个标记/性状关联,对携带该等位基因(Obs)的类群的观察数量、标记的染色体位置以及该等位基因的效应估计将为每个标记等位基因计算并显示在效应文件中。由于TASSEL编码等位基因的方式,一个标记的最后一个等位基因估计值总是零,而其他等位基因估计值与之相关。
load_GWAS_data(demo_association_file gwas_data < - demo_effects_file)
LD数据从连杆不平衡文件中加载。在这个过程中,不完整的案例被丢弃,数据被分割成每个染色体的data.frame。您的LD数据的染色体信息应该匹配您的GFF注释的染色体列(第一列)。下面描述了LD文件。
load_LD(demo_LD_file) LD < -
PAST使用TASSEL在每个标记SNP(记为参考SNP)与其最近的邻近SNP(上游50个和下游50个)之间的连锁不平衡输出。在这个窗口内,计算snp之间的联系。联动的阈值可以从联动不平衡值的图(-log(pDiseq)对r2)中确定。基于此图,Tang等人[1]定义了当两个被比较的snp具有R^2 > 0.8[3]时的连锁。PAST使用连锁数据来确定哪个SNP代表连锁群(tagSNP),然后使用tagSNP在±1Kb的窗口内确定连锁基因。决定使用1 Kb的基本原理是,大多数基因分别在开始密码子和停止密码子的上游和下游1 Kb内受到调控。此时,tagSNP的关联和效应数据被转移到关联基因上。如果有一个以上的基因与一个标记snp相等地连接,则标记snp的属性被转移到两个(或所有)连接的基因上。
assign_SNPs_to_genes(gwas_data 基因< - LD, demo_genes_file,c(“基因”),1000,0.8,2)
途径评分通过基因集富集计算获得[1,3]。首先,tagSNPs发现的所有基因都是根据其效应值从负到正进行排序的,在抗病性状方面,减少是有益的;反之,在产量方面,增加是有益的。富集基于通路中的基因成员关系,由用户提供的通路数据库指定。只有具有一定数量的基因(由用户提供)或更多基因的路径才被考虑以减少小样本量的偏差。接下来,以类似于加权Kolmogorov-Smirnov统计量的方式计算运行和。如果基因在通路中存在或不存在,则运行和统计量分别增加或减少。该分数以基因效应值的绝对值加权的途径中的基因比例增加,或以不在该途径中的基因比例减少。这是一个连续和统计,因为每个基因都是按照它们在所有基因中的排名顺序考虑的。途径的最终富集分数(ES)是与零的最大正偏差,可以通过绘制运行和统计值与基因的秩序(见地毯图部分)来可视化。通过运行所有基因及其基因效应值的1000个排列来确定通路的重要性,从而生成ES的零分布。 The null distribution mean (μ) and standard deviation (σ) serve to normalize the ES for the pathway. The values of p are then corrected for the false discovery rate as calculated by the QVALUE package [4] in R.
PWY-ID \ \ tGene tPathway描述
find_pathway_significance(基因, rugplots_data < - demo_pathways_file,5,“增加”,1000,2)
为每个感兴趣的途径生成地毯图,以可视化基因集富集计算。tagSNPs发现的所有基因都根据其效应值进行排序,并沿图的x轴进行投影。沿着图表顶部的Hatch标记表示在通路中具有成员资格的基因的等级位置。每个通路基因的运行和统计富集分数的值然后针对它们的等级绘制。曲线中的最高点是路径的ES,由垂直虚线表示。
plot_pathways(rugplots_data“pvalue”,0.02,“增加”,tempdir())
Tang JD, Perkins A, Williams WP, Warburton ML.利用全基因组关联识别玉米黄曲霉毒素积累抗性的代谢途径。16. BMC Genomics, 2015;doi: 10.1186 / s12864 - 015 - 1874 - 9.
[2]白德伯里PJ,张震,克鲁恩DE, Casstevens TM, Ramdoss Y, Buckler ES。TASSEL:用于不同样本中复杂性状关联映射的软件。生物信息学。2007;23:2633-5。
[3] Subramanian A, Tamayo P, Mootha VK, Mukherjee S, Ebert BL, Gillette MA,等。基因集富集分析:解释全基因组表达谱的一种基于知识的方法。中国科学院学报(自然科学版),2005;
[4] Storey JD, Tibshirani R.全基因组研究的统计学意义。中国科学院学报,2003;30(2):344 - 344。