geneAttribution:识别候选基因与非编码基因变异有关

亚瑟香肠

2017-04-24

geneAttribution是一个R包确定最可能的基因或基因的变异在给定基因位点在人类基因组中行为。一个典型的用例是注释的结果从全基因组关联研究(GWAS)。大多数的变体被GWAS位于非编码区域和可能通过影响基因表达(Maurano et al . 2012)。变异通常包含多个基因在该地区的连锁不平衡和识别的一个挑战。

最基本的功能geneAttribution假设基因输入轨迹越近,越有可能是诱发的基因。此外,任何经验数据链接基因组区域的基因(如表达数量性状基因座(eQTL)或基因组构造数据)可以使用提供的UCSC的请全部文件格式。

基本功能

#基本工作流,默认参数图书馆(geneAttribution geneLocs < -)geneModels()#定义基因模型geneAttribution(“chr2”,127156000geneLocs)#得到候选基因的概率

最基本的功能假设输入的基因位点越近,越有可能是一个候选基因。距离轨迹之间的关系和候选基因可能是建模为一个指数分布。每个基因的可能然后规范化所说的总和除以可能性。因此,存在多个基因附近的轨迹减少单个基因的后验概率。

geneModels ()

计算输入轨迹之间的距离和基因,基因模型是必需的。为此,geneAttribution提供了geneModels ()函数。geneModels ()需要TxDb对象包含基因组基因的坐标作为输入,并返回GenomicRanges格式的基因模型,基因名称象征列。加载基因模型可能需要几分钟。默认TxDb输入TxDb.Hsapiens.UCSC.hg38.knownGene,其中包含为基因组构建GRCh38基因模型。另一个输入TxDb.Hsapiens.UCSC.hg19.knownGene,其中包含基因模型构建hg19。geneModels函数附加可选的输入:

maxGeneLength。基因模型,超过这个被排除在外
genesToInclude和genesToExclude。特征向量的基因的基因符号包括(如只有蛋白质编码基因)或排除

geneAttribution ()

输入所需的最低geneAttribution ()是一种染色体标识符相同的格式比基因模型和一个染色体的位置比基因相同的构建模型。的geneAttribution ()函数有额外的可选的输入:

λ,\λ(\ \)指数分布的参数建模候选基因基于指数分布的可能性。默认情况下,基于实证eQTL Genome-Tissue表达式的数据项目(GTEx财团2015),7.61 e-06。减少λ接近输入给基因位点更高概率和减少它给基因更远更高的概率
maxDist的最大距离输入轨迹的基因将被考虑。基因多maxDist基地远离输入轨迹将被忽略。默认是1000000基地
minPP的后验概率最小的基因将会报道。基因的后验概率小于minPP将被概括为“其他”。设置为0报告所有的基因

使用经验数据

#典型工作流程,与geneAttribution使用提供的示例数据geneLocs < -geneModels()fileName1 < -执行(“extdata”,“hiCRegions.b38.bed”,包=“geneAttribution”)fileName2 < -执行(“extdata”,“eqtlHaplotypeBlocks.b38.bed”,包=“geneAttribution”)经验< -loadBed(c(fileName1 fileName2),c(2,5))geneAttribution(“chr2”,127156000、geneLocs经验)#如上,但用户提供实证UCSC的轮回格式的数据文件geneLocs < -geneModels()经验< -loadBed(“INPUT_FILE.bed”,重量=1.5)# INPUT_FILE。床上是正确格式化的请全部文件geneAttribution(“chr2”,127156000、geneLocs经验)

此外,geneAttribution可以利用经验数据链接基因组位点基因。eQTLs,基因变异与特定基因的表达,是一个这样的例子。如果输入轨迹坐落在经验数据中定义的区域内,相关的基因的可能性乘以相关的权重。用户提供实证数据可以通过使用加载loadBed ()函数。

loadBed函数读取用户提供UCSC的轮回格式的文件。请全部文件必须制表符分隔和列必须按照以下顺序:染色体,开始,结束,基因的象征。一个可选的第五列也可以提供。基因符号使用的经验数据必须匹配的符号用于基因模型和基因组的构建(例如GRCh38)也必须匹配基因的基因组构建模型。

一起请全部文件,数据的权重可能会提供。默认是2,双打的可能基因如果输入轨迹位于区域定义的经验数据。权重1不会改变的可能性,小于1的权重将减少的可能性。另外请阅读文件,用户可以构建经验数据自己GenomicRanges对象的列表包含权重得分列。

的extdata目录提供了两种基因组构建GRCh38请全部文件:

hiCRegions.b38.bed,其中包含捕获高c基因组构造数据启动子与其他基因组地区GM12878 CD34细胞线(Mifsud et al . 2015)
eqtlHaplotypeBlocks.b38.bed,它定义了单体型在至少两个不同的组织与eQTLs Genome-Tissue表达项目(GTEx财团2015)

因为提供的文件为例,他们被限定在一个地区10 MB(120000000 - 130000000) 2号染色体上。

获得候选基因的坐标

的输出geneAttribution函数是一个名叫数值向量候选基因的概率。在某些情况下,它可能是有用的也知道候选基因的坐标,作为这个注释可以帮助与进一步的工作包的结果。它可以很容易地获得通过构造子集基因模型对象。

geneLocs < -geneModels()geneLocs < -geneModels()#定义基因模型页< -geneAttribution(“chr2”,127156000geneLocs,minPP =0)#后验概率。geneLocs [匹配(的名字(pp), geneLocs $符号)]#基因子集模型