概述

《创世纪》提供了统计方法分析基因的数据样本与人口结构和/或家族亲缘。这个描述提供了一个描述如何使用《创世纪》推断人口结构,以及估算亲缘等措施亲属关系系数,由血统(IBD)共享概率身份,近亲繁殖系数。创世纪使用pc航空人口结构推断这是健壮的已知或含糊不清的关系,而且它使用PC-Relate亲缘准确估计的人口结构,admixutre,偏离哈迪温伯格平衡。

亲缘评估调整的主要组件(PC-Relate)

存在很多评估人员使用全基因组SNP基因型遗传研究的样本数据估计最近的遗传相似度指标如成对亲属关系系数,成对IBD分享概率,和个人近亲繁殖系数。然而,许多这些估计要么使简化假设并不持有的人口结构和/或祖先掺合料,或者他们需要参考人口电池板已知的祖先从预先确定的数量。假设违反时,这些估计可以提供高度偏差估计。

PC-Relate方法用于准确地估计最近的遗传相似度指标和样品未知或未指明的人口结构不需要参考人口面板。PC-Relate使用祖先代表主成分占样本祖先差异并提供估计,强劲的人口结构,祖先外加剂,偏离哈迪温伯格equilibirum。

数据

阅读在基因型数据

的功能《创世纪》包从读取基因型数据GenotypeData类对象创建的GWASTools包中。通过使用GWASTools,一个GenotypeData可以很容易地创建类对象:

R代码创建一个示例GenotypeData下面是对象。可以找到更多的细节GWASTools包参考手册。

R矩阵

基因族群< -MatrixGenotypeReader(基因型=基因型,snpID =snpID,染色体=染色体,位置=的位置,scanID =scanID genoData < -)GenotypeData(基因工程)
  • 基因型是一个矩阵编码的基因型值0 / 1 / 2,行索引SNPs和列索引样品在哪里
  • snpID是一个整数向量独特的SNP id
  • 染色体是一个整数向量指定每个SNP的染色体
  • 位置是一个整数向量指定每个SNP的位置
  • scanID是一个向量独特的个人id

GDS文件

基因族群< -GdsGenotypeReader(文件名=“genotype.gds”)genoData < -GenotypeData(基因工程)
  • 文件名文件路径到GDS对象吗

人类基因组单体型图数据

演示pc航空和PC-Relate分析《创世纪》包,我们分析SNP数据从墨西哥裔美国人在洛杉矶,加州(MXL)和非裔美国人在美国西南部(ASW)人口样本的人类基因组单体型图3所示。墨西哥裔美国人,非洲裔美国人有不同祖先的背景,和家庭亲属存在于这些数据。20 k常染色体单核苷酸多态性基因型数据的一个子集为173人提供一个GDS文件。

#读GDS数据gdsfile < -执行(“extdata”,“HapMap_ASW_MXL_geno.gds”,包=“创世纪”)HapMap_geno < -GdsGenotypeReader(文件名=gdsfile)#创建一个GenotypeData类对象HapMap_genoData < -GenotypeData(HapMap_geno) HapMap_genoData
# #的对象类GenotypeData # # |数据:# #文件:/ tmp / RtmpaHIlQO / Rinst50b55d9b81a0创世纪/ extdata / HapMap_ASW_MXL_geno。gds (923.5 KB) # # +[] * # # | - +样品。173邮政id {Int32,因素(40.90%),283字节}* # # | - + snp。id {Int32 20000邮政(34.64%),27.7 KB} # # | - + snp。位置{ Int32 20000 ZIP(34.64%), 27.7 KB } ## |--+ snp.chromosome { Int32 20000 ZIP(0.13%), 103 bytes } ## |--+ genotype { Bit2 20000x173, 865.0 KB } * ## | SNP Annotation: ## NULL ## | Scan Annotation: ## NULL

亲缘评估调整的主要组件(PC-Relate)

运行PC-Relate

PC-Relate使用祖先代表主成分(pc)计算从pc航空调整人口结构和血统的人在最近的样品,并提供准确的估计遗传相似度由于家庭结构。的pcrelate函数执行PC-Relate分析。

training.set输入的pcrelate函数允许使用的规范样本估计每个SNP的祖先调整。调整往往被排除在近亲时表现最佳training.set,所以“无关子集”的个人pc航空分析通常是一个不错的选择。然而,当一个“无关子集”不可用,调整仍然适用当估计使用所有样品(training.set= NULL)。

#运行PC-Relatemypcrelate < -pcrelate(genoData =HapMap_genoData,pcMat =美元mypcair向量(,1:2),training.set=mypcair unrels美元)
# #运行分析与20000个snp - 2块(s)
# #运行分析173个样本- 1块(s)
# #在pcMat使用2 PC (s)来计算调整后的估计
# #在训练中使用97个样本。将估计PC对等位基因频率的影响
# #计算PC-Relate估计…
# #……SNP块1的2 - 5.468秒完成
# #……SNP的第2块2 - 5.472秒完成
# #进行小样本调整……

如果估计IBD共享的概率并不理想,然后设置输入炎症性肠病。聚合氯化铝= FALSE将加速计算。

输出PC-Relate

pcrelate函数将返回一个对象的类pcrelate(当输入write.to。gds = FALSE),或者它将输出保存到GDS文件(当输入write.to。gds = TRUE)。保存输出到GDS文件是有用的对于大样本,因为它允许高效存储和访问的估计(见方案gdsfmt更多的细节)。下面的命令可以用来读取从先前的PC-Relate分析结果保存到GDS文件“tmp_pcrelate.gds”

图书馆(gdsfmt mypcrelate < -)openfn.gds(“tmp_pcrelate.gds”)

功能是提供容易阅读的输出pcrelate(一个类pcrelate对象或一个GDS文件)和成对亲缘估算表,一个表个人的近亲繁殖的解,和遗传关系矩阵(GRM)。

pcrelateReadKinship(pcrelObj =mypcrelate,scan.include=iid [1:40),kin.thresh=2^ (-9/2))
# # ID1 ID2 nsnp亲属k2 k1 k0 # # 7 NA19919 NA19908 19437 0.24668482 -0.017347662 1.0157801 0.0015676062 # # 17 NA19919 NA19909 19626 0.24792942 0.008880185 0.9911198 0.0000000000 # # 138 NA20282 NA20301 19765 0.32326286 0.364583049 0.5780613 0.0573556808 # # 186 NA19902 NA19901 19640 0.25122134 0.011649796 0.9883502 0.0000000000 # # 212 NA19902 NA19900 19771 0.23177090 -0.023637964 1.0228805 0.0007574672 # # 365 NA20335 NA20337 19906 0.06867109 0.009357025 0.2559703 0.7346726524 # # 493 NA20340 NA20349 19679 0.08084154 0.005413026 0.3125401 0.6820468648 # # 501 NA20340 NA20344 19657 0.05710043 -0.010172410 0.2487465 0.7614258883 # # 513 NA20297 NA20281 19669 0.06444652 0.019864365 0.2180573 0.7620783007 # # 623 NA20290 NA20289 19666 0.25641191 -0.002406525 1.0001161 0.0022904721 # # 625 NA20290 NA20333 19731 0.04482144 0.018667900 0.1419500 0.8393821454 # # 634 NA20295 NA20294 19769 0.25275105 -0.006725302 1.0044206 0.0023046668 # # 649 NA20346 NA20349 19765 0.05540436 -0.005522529 0.2326625 0.7728600478 # # 657 NA20346 NA20344 19743 0.05144352 -0.002491201 0.2107565 0.7917347083 # # 722 NA20349 NA20344 19878 0.27963012 0.280096947 0.5316348 0.1882682417
pcrelateReadInbreed(pcrelObj =mypcrelate,scan.include=iid [1:40),f.thresh=2^ (-11/2))
# # f ID nsnp # # 11 NA20335 19949 0.03210545 # # 13 NA19904 19814 0.02276732 # # 20 NA20317 19933 0.02302650 0.02705174 # # # # 30 NA20294 19827 37 NA20344 NA20333 # # 19902 0.03607983 19905 0.03498920
pcrelateMakeGRM(pcrelObj =mypcrelate,scan.include=iid [1:5),scaleKin =2)
# # # # NA19919 NA19916 NA19835 NA20282 NA19703 NA19919 0.971883727 0.011129327 -0.029404169 0.011129327 1.004740236 0.007354497 0.001717844 0.008775792 0.009562848 - 0.032625513 # # NA19916 # # NA19835 -0.029404169 0.007354497 0.970464272 0.009562848 0.001717844 -0.010680929 0.989649727 0.016076041 -0.010680929 - 0.002279565 # # NA20282 # # NA19703 0.032625513 0.008775792 0.002279565 0.016076041 1.000048656

引用