过去的

亚当打

2022-11-01

玉米和其他作物复杂性状的全基因组关联研究(GWAS)已经非常流行,以确定影响这些性状的基因组区域[1,2,3]。一般来说,数十万个单核苷酸多态性(SNPs)标记都使用F统计量与性状的关联进行测试,它为snp -性状关联分配了p值。然后,更详细地研究满足假发现率(FDR,某一水平α的所有显著结果中假阳性的比例)阈值的个体标记-性状关联,以揭示性状遗传结构的线索,以及未来如何最好地改进它。然而,在GWAS中许多真实的关联可能会被忽略,因为FDR的阈值可能低至α除以所测snp的总数。代谢途径分析的重点是许多基因的组合效应,根据他们的共同生物功能分组。将GWAS分析与代谢途径分析相结合,认为所有与感兴趣性状呈正相关的基因序列,无论大小如何,共同可以突出哪些序列导致作物改良机制,哪些序列值得进一步研究和操作,例如通过基因编辑。

虽然组合GWAS和路径分析在发现相关路径方面非常成功,但分析速度缓慢且繁琐,因为分析工具是用R、Perl和Bash组合编写的,并且每个分析的输出都手动输入到下一个分析[1]中。途径关联研究工具(PAST)的开发是为了促进更简单和更有效的基于gwas的代谢途径分析。PAST使用玉米进行测试,但也适用于其他物种。它追踪所有SNP标记-性状的关联,无论其显著性或大小。PAST基于链接不平衡(LD)数据将snp分组为链接块,并从每个块中识别一个标记snp。然后PAST在用户定义的tagSNP距离内识别基因,并将tagSNP的属性转移到基因上,包括等位基因效应、R2和从GWAS分析中发现的原始snp -性状关联的p值。最后,PAST使用基因效应值来计算每个通路的富集分数(ES)和p值。

过去的

PAST是Tang等人2015年描述的GWAS到通路分析的实现。

下面的代码块展示了如何使用PAST分析数据,从加载数据到绘制rugplot。

图书馆(过去)#>警告:替换以前的导入'S4Vectors::first'由'dplyr::first'当#>加载“过去”#>警告:替换以前的导入'S4Vectors::setdiff'由'dplyr::setdiff'当#>加载“过去”#>警告:替换以前的导入'S4Vectors::rename'由'dplyr::rename'当#>加载“过去”#>警告:替换以前的导入'S4Vectors::intersect'由'dplyr::intersect'#>当加载“过去”#>警告:替换以前的导入'S4Vectors::union'由'dplyr::union'当#>加载“过去”#>警告:替换之前导入的“S4Vectors::setequal”由“dplyr::setequal”#>当加载“过去”#>警告:替换以前的导入'S4Vectors::tail'由'utils::tail'当#>加载“过去”#>警告:替换以前的导入'S4Vectors::stack'由'utils::stack'当#>加载“过去”#>警告:替换以前的导入'S4Vectors::head'由'utils::head'当#>加载“过去”#>警告:替换之前导入的S4Vectors::complete。情况下的# >的统计:完成。cases' when loading 'PAST'#>警告:替换以前的导入'S4Vectors::sd'由'stats::sd'加载时# >‘过去’demo_association_file =执行“extdata”“association.txt.xz”包=“过去”mustWork =真正的demo_effects_file =执行“extdata”“effects.txt.xz”包=“过去”mustWork =真正的demo_LD_file =执行“extdata”“LD.txt.xz”包=“过去”mustWork =真正的demo_genes_file =执行“extdata”“genes.gff”包=“过去”mustWork =真正的demo_pathways_file =执行“extdata”“pathways.txt.xz”包=“过去”mustWork =真正的

加载GWAS数据

加载GWAS数据从GWAS获取统计信息和效果,并将它们存储在一起。在这个过程中,非双等位基因的数据被丢弃。下面描述了这两个文件。

gwas_data < -load_GWAS_data(demo_association_filedemo_effects_file)

加载LD数据

LD数据从连杆不平衡文件中加载。在这个过程中,不完整的案例被丢弃,数据被分割成每个染色体的data.frame。您的LD数据的染色体信息应该匹配您的GFF注释的染色体列(第一列)。下面描述了LD文件。

LD < -load_LD(demo_LD_file)

将snp分配给基因

PAST使用TASSEL在每个标记SNP(记为参考SNP)与其最近的邻近SNP(上游50个和下游50个)之间的连锁不平衡输出。在这个窗口内,计算snp之间的联系。联动的阈值可以从联动不平衡值的图(-log(pDiseq)对r2)中确定。基于此图,Tang等人[1]定义了当两个被比较的snp具有R^2 > 0.8[3]时的连锁。PAST使用连锁数据来确定哪个SNP代表连锁群(tagSNP),然后使用tagSNP在±1Kb的窗口内确定连锁基因。决定使用1 Kb的基本原理是,大多数基因分别在开始密码子和停止密码子的上游和下游1 Kb内受到调控。此时,tagSNP的关联和效应数据被转移到关联基因上。如果有一个以上的基因与一个标记snp相等地连接,则标记snp的属性被转移到两个(或所有)连接的基因上。

基因< -assign_SNPs_to_genes(gwas_dataLD,demo_genes_file,c“基因”),10000.82

寻找途径意义

途径评分通过基因集富集计算获得[1,3]。首先,tagSNPs发现的所有基因都是根据其效应值从负到正进行排序的,在抗病性状方面,减少是有益的;反之,在产量方面,增加是有益的。富集基于通路中的基因成员关系,由用户提供的通路数据库指定。只有具有一定数量的基因(由用户提供)或更多基因的路径才被考虑以减少小样本量的偏差。接下来,以类似于加权Kolmogorov-Smirnov统计量的方式计算运行和。如果基因在通路中存在或不存在,则运行和统计量分别增加或减少。该分数以基因效应值的绝对值加权的途径中的基因比例增加,或以不在该途径中的基因比例减少。这是一个连续和统计,因为每个基因都是按照它们在所有基因中的排名顺序考虑的。途径的最终富集分数(ES)是与零的最大正偏差,可以通过绘制运行和统计值与基因的秩序(见地毯图部分)来可视化。通过运行所有基因及其基因效应值的1000个排列来确定通路的重要性,从而生成ES的零分布。 The null distribution mean (μ) and standard deviation (σ) serve to normalize the ES for the pathway. The values of p are then corrected for the false discovery rate as calculated by the QVALUE package [4] in R.

PWY-ID \ \ tGene tPathway描述

rugplots_data < -find_pathway_significance(基因,demo_pathways_file,5“增加”10002

绘制选定路径

为每个感兴趣的途径生成地毯图,以可视化基因集富集计算。tagSNPs发现的所有基因都根据其效应值进行排序,并沿图的x轴进行投影。沿着图表顶部的Hatch标记表示在通路中具有成员资格的基因的等级位置。每个通路基因的运行和统计富集分数的值然后针对它们的等级绘制。曲线中的最高点是路径的ES,由垂直虚线表示。

plot_pathways(rugplots_data“pvalue”0.02“增加”tempdir())

参考文献

Tang JD, Perkins A, Williams WP, Warburton ML.利用全基因组关联识别玉米黄曲霉毒素积累抗性的代谢途径。16. BMC Genomics, 2015;doi: 10.1186 / s12864 - 015 - 1874 - 9

[2]白德伯里PJ,张震,克鲁恩DE, Casstevens TM, Ramdoss Y, Buckler ES。TASSEL:用于不同样本中复杂性状关联映射的软件。生物信息学。2007;23:2633-5。

[3] Subramanian A, Tamayo P, Mootha VK, Mukherjee S, Ebert BL, Gillette MA,等。基因集富集分析:解释全基因组表达谱的一种基于知识的方法。中国科学院学报(自然科学版),2005;

[4] Storey JD, Tibshirani R.全基因组研究的统计学意义。中国科学院学报,2003;30(2):344 - 344。