1概述

《创世纪》提供统计方法，以分析样本的遗传数据与群体结构和/或家族相关。这个小插图提供了如何使用的描述《创世纪》用于推断种群结构，以及估计亲缘关系测度，如亲属系数、血统同一性(IBD)共享概率和近交系数。《创世纪》使用PC-AiR进行种群结构推断，对已知或隐相关性具有鲁棒性，并使用PC-Relate在存在种群结构、夹杂物和偏离Hardy-Weinberg平衡的情况下进行准确的相关性估计。

1．2调整主成分的相关性估计(pc - related)

许多估计器使用来自遗传研究样本的全基因组SNP基因型数据来估计近期遗传相关性的措施，如成对亲属关系系数、成对IBD共享概率和个体近交系数。然而，许多这样的估计者要么做出简化的假设，这些假设在存在种群结构和/或祖先混合的情况下不成立，要么他们需要来自预先指定的种群的已知祖先的参考人口面板。当假设被违背时，这些估计器可以提供高度偏向的估计。

pc - related方法用于在不需要参考种群面板的情况下，在未知或不确定的种群结构的样本中准确估计近期遗传相关性的措施。PC-Relate使用祖先代表性主成分来解释样本祖先差异，并提供对种群结构、祖先混合和偏离Hardy-Weinberg平衡稳健的估计。

2数据

2.1阅读基因型数据

的函数《创世纪》软件包可以读取基因型数据GenotypeData类创建的GWASTools包中。通过使用GWASTools,一个GenotypeData类对象可以很容易地从下面创建:

SNP基因型数据的R矩阵
一个GDS文件
叮铃声文件

创建对象的R代码GenotypeData对象如下所示。更多细节可以在GWASTools包装参考手册。

《创世纪》也可以从VCF文件开始处理测序的基因型数据。有关使用此格式的示例，请参阅小插图“使用《创世纪》包”。

2.1.1R矩阵

geno <- MatrixGenotypeReader(基因型=基因型，snpID = snpID，染色体=染色体，位置=位置，scanID = scanID) genoData <-基因型数据(geno)

基因型是编码为0 / 1 / 2的基因型值矩阵，其中行表示snp，列表示样本
snpID是唯一SNP id的整数向量
染色体是一个整数向量，指定每个SNP的染色体
位置是一个整数向量，指定每个SNP的位置
scanID是唯一个体id的向量

2.1.2GDS文件

geno <- GdsGenotypeReader(filename = "genotype.gds")

文件名是GDS对象的文件路径吗

2.1.3叮铃声文件

的SNPRelate包提供snpgdsBED2GDS将二进制PLINK文件转换为GDS文件。

snpgdsBED2GDS(床上。Fn = "基因型。床”,荡妇。Fn = "基因型。荡妇”,家人。Fn = "基因型。fam公司”。GDSFN = "基因型。gds")

bed.fn是PLINK .bed文件的文件路径
bim.fnPLINK .bim文件的路径是
fam.fn是PLINK .fam文件的文件路径吗
out.gdsfn输出GDS文件的路径是

一旦PLINK文件被转换为GDS文件，那么GenotypeData对象可以如上所述创建。

2．2人类基因组单体型图数据

演示PC-AiR和pc - related分析《创世纪》我们分析了来自加利福尼亚州洛杉矶的墨西哥裔美国人(MXL)和美国西南部非洲裔美国人(ASW)的HapMap 3人群样本的SNP数据。墨西哥裔美国人和非洲裔美国人有着不同的祖先背景，这些数据中都有家族亲属。173个个体的20K常染色体SNPs的基因型数据作为GDS文件提供。

Gdsfile <- system。文件(“extdata”、“HapMap_ASW_MXL_geno。gds”,包=“创世纪”)

3.相关样品主成分分析(PC-AiR)

3．1LD修剪

在运行PCA之前，我们使用LD剪枝来选择一组独立的snp进行分析。我们使用snpgdsLDpruning在SNPRelatepackage，它返回snp id的列表。

library(SNPRelate) # read in GDS data GDS <- snpgdsOpen(gdsfile) snpset <- snpgdsLDpruning(GDS, method="corr"， slide.max. data)bp=10e6, ld.threshold=sqrt(0.1)， verbose=FALSE) pruned <- unlist(snpset, use.names=FALSE)

## [1] 3826

(修剪)

## [1] 6 7 15 17 22 31

snpgdsClose (gds)

3.2血统差异的两两测量

仅根据成对的遗传相关性测量(即亲属关系系数)，就有可能在样本中确定一个相互不相关的个体子集。然而，为了获得整个样本的准确群体结构推断，样本中所有个体的祖先至少由这个子集中的一个个体表示是重要的。为了确定一个相互不相关的和具有祖先代表性的个体子集，PC-AiR还利用祖先差异的措施。使用king -鲁棒亲属系数估计器(Manichaikul et al.， 2010)计算这些测量值，该估计器为具有不同血统的不相关个体对提供系统性的负估计。一个人拥有的负的成对估计的数量提供了关于这个人的祖先与样本的其他部分有多大不同的信息，这有助于优先考虑应该保留在祖先代表子集中的个人。

KING软件的相关输出是两个扩展名为.kin0和.kin的文本文件。的kingToMatrix函数可用于从输出中提取亲缘系数(我们将其用作分歧度量)，并创建一个可供* *(创世纪)(//www.anjoumacpherson.com/packages/3.16/GENESIS)功能。

#创建KING估计库的矩阵(GENESIS)文件(“extdata”、“MXL_ASW。kin0"， package="GENESIS")，系统。文件(“extdata”、“MXL_ASW。kin"， package="GENESIS"))， estimator ="亲缘关系")

NA19649 -0.0656 -0.0497 -0.0486 ## NA19649 -0.0761 0.5000 0.2513 -0.0187 -0.0141 ## NA19650 -0.0656 0.2513 0.5000 -0.0037 -0.0033 ## NA19651 -0.0497 -0.0187 -0.0037 0.5000 0.0112 ## NA19652 -0.0486 -0.0141 -0.0033 0.0112 0.5000

矩阵的列名和行名是个体id，每个非对角线条目是指定个体对的king -鲁棒估计。

运行KING软件的替代方案是snpgdsIBDKING函数从SNPRelate包可以直接从GDS文件中计算king -鲁棒估计。此函数的输出包含一个成对估计的矩阵，可由《创世纪》功能。

3．3运行pc航空

PC-AiR算法需要对亲缘关系和祖先差异进行成对测量，以便将样本划分为“不相关子集”和“相关子集”。亲属关系系数估计值用于确定亲属，因为一组亲属中只有一个人可以被包括在“无亲属子集”中，其余的人必须被分配到“有亲属子集”。由KING-robust计算的祖先差异度量用于帮助从一组亲属中选择哪个个体具有最独特的祖先，并应优先纳入“不相关子集”。

上面读到的KING-robust估计值通常用于衡量不相关个体对的祖先差异，但它们也可以用于衡量亲属的亲属关系(注:对于不同血统的混合亲属，它们可能是有偏见的亲属关系衡量标准)。的pcair功能执行PC-AiR分析。

我们使用GWASTools包来创建所需的GenotypeData对象《创世纪》．

library(GWASTools) HapMap_geno <- GdsGenotypeReader(filename = gdsfile) #创建一个基因类型数据类对象HapMap_genoData <-基因类型数据(HapMap_geno) HapMap_genoData

文件:/tmp/RtmpFJBjOY/Rinst1abe876a115da4/GENESIS/extdata/HapMap_ASW_MXL_geno。gds (901.8K) ## +[] * ## |- +样本。id {Int32，因子173 ZIP(40.9%)， 283B} * ## |—+ snp。id {Int32 20000 ZIP(34.6%)， 27.1K} ## |- + snp。位置{ Int32 20000 ZIP(34.6%), 27.1K } ## |--+ snp.chromosome { Int32 20000 ZIP(0.13%), 103B } ## \--+ genotype { Bit2 20000x173, 844.7K } * ## | SNP Annotation: ## NULL ## | Scan Annotation: ## NULL

mypcair <- pcair(HapMap_genoData, kinobj = KINGmat, divobj = KINGmat, snp。包括=修剪)

# #主成分分析(PCA)基因型:# #扣除16174个SNP (non-autosomes或non-selection) # #不包括0 SNP(单形:真的,加:南,缺失率:南)# # #的样品:97 # # #的单核苷酸多态性:3826 # #使用线程的主成分:# # # 32 # # PCA:选择基因型的总和(0,1,2)= 185850 # # CPU功能:双精度SSE2 # # 11月1日星期二17:37:39 2022(内部增加:32048 ) ## [..................................................0%等 : --- [==================================================] 100%,完成1 # # 11月1日星期二17:37:40 2022年开始(特征值和特征向量)# # 11月1日星期二17:37:40 2022完成。## SNP加载:##样本:97 ## SNP: 3826 ##使用1个线程##使用前32个特征向量## SNP加载:所有选择的基因型(0,1,2)的总和= 185850 ## 11月1日周二17:37:40 2022(内部增量:65536)## [..................................................0%等 : --- [==================================================] 100%,完成0 # # 11月1日星期二17:37:40 2022完成。##样本加载:##样本:## 76 ## SNPs: 3826 ##使用1个线程##使用前32个特征向量##样本加载:所有选择的基因型(0,1,2)的总和= 144468 ## 11月1日下午17:37:40 2022(内部增量:65536)## [..................................................0%等 : --- [==================================================] 100%,完成0 # # 11月1日星期二17:37:40 2022完成。

genoData是一个GenotypeData类对象
kinobj是一对亲属系数估计矩阵吗
divobj是成对测量祖先差异的矩阵(king -鲁棒估计)
snp.include是snp id的向量

如果有更好的亲属关系系数估计，那么kinobj输入可以用这些估计的类似矩阵代替。的divobj输入应始终保持king -鲁棒估计。

3.3.1参考总体样本

由于PCA是一种无监督的方法，通常很难确定每个顶级pc所代表的总体结构。为了提供对推断结构的一些理解，有时建议在分析中包括已知祖先的参考人群样本。如果数据集包含这样的参考总体样本，我们可能希望确保这些参考总体样本包含在“不相关子集”中。这可以通过设置输入来实现unrel.set等于一个向量，id为参考总体样本的个别id。

mypcair <- pcair(HapMap_genoData, kinobj = KINGmat, divobj = KINGmat, snp。包括=修剪，unrel。set = id)

这将强制使用unrel.set进入“不相关子集”，将它们的任何亲属移动到“相关子集”，然后对剩余的样本执行PC-AiR分区算法。

3.3.2在不运行PCA的情况下划分一个样本

在不进行主成分分析的情况下，将样本划分为具有祖先代表性的个体“不相关子集”和个体“相关子集”可能是有意义的。的pcairPartition方法中调用的pcair函数，允许用户执行此操作。

part <- pcairPartition(kinobj = KINGmat, divobj = KINGmat)

输出包含两个向量，分别给出“不相关子集”和“相关子集”的单独id。

头(部分unrels美元);头(rel美元部分)

##[1]“na19708”“na19711”“na19712”“na19737”“na19740”“na19741”

##[1]“na19686”“na20346”“na20345”“na20347”“na19664”“na19677”

就像pcair函数，输入unrel.set可用于指定必须属于“不相关子集”的某些个人。

3.4PC-AiR输出

类返回的对象pcair函数有类pcair．一个总结类对象的方法pcair提供，以获得结果的快速概述。

总结(mypcair)

##调用:## .pcair(gdsobj = gdsobj, kinobj = kinobj, divobj = divobj, kin。谷粒=谷粒。打, ## div.thresh = div.thresh, unrel.set = unrel.set, sample.include = sample.include, ## snp.include = snp.include, num.cores = num.cores, verbose = verbose) ## ## PCA Method: PC-AiR ## ## Sample Size: 173 ## Unrelated Set: 97 Samples ## Related Set: 76 Samples ## ## Kinship Threshold: 0.02209709 ## Divergence Threshold: -0.02209709 ## ## Principal Components Returned: 32 ## Eigenvalues: 2.946 1.717 1.326 1.292 1.277 1.255 1.242 1.223 1.219 1.201 ... ## SNPs Used: 3826

输出提供了总样本量以及分配到不相关和相关子集的个体数量，以及用于确定哪些个体对是相关的或祖先发散的阈值。并给出了顶部pc的特征值，有助于确定反映结构的pc数量。还指定了用于排除snp的次要等位基因频率(MAF)过滤器，以及过滤后分析的snp总数。使用该命令可以详细描述如何修改分析参数和函数的可用输出帮助(pcair)．

3.4.1绘图PC-AiR pc

的《创世纪》包还提供了情节类对象的方法pcair快速可视化电脑对。这些PC对图中的每个点代表一个样本个体。这些图有助于可视化样本中的种群结构，并识别具有相似祖先的个体集群。

# plot top 2 PCs plot(mypcair) # plot PCs 3和4 plot(mypcair, vx = 3, vy = 4)

默认是将PC值分别绘制为“不相关子集”和“相关子集”中的个人的黑点和蓝色加号。控件的标准输入可更改绘图颜色和字符以及其他标准绘图参数情节函数。

4调整主成分的相关性估计(pc - related)

4．1运行PC-Relate

pc - related使用从PC-AiR计算的祖先代表主成分(PCs)来调整样本中个体的种群结构和祖先，并提供由于家庭结构而导致的近期遗传相关性的准确估计。的pcrelate函数执行pc相关分析。

的training.set的输入pcrelate函数允许使用哪些样本来估计每个SNP的祖先调整。当近亲被排除在外时，这种调整往往表现得最好training.set，因此PC-AiR分析中“不相关子集”中的个体通常是一个很好的选择。然而，当“不相关子集”不可用时，当使用所有样本(training.set= NULL）.

为了运行PC-Relate，我们首先需要创建一个迭代器对象，以块为单位读取snp。我们创建迭代器，以便每个块中只返回修剪过的snp。

# run pc - related HapMap_genoData <- GenotypeBlockIterator(HapMap_genoData, snpInclude=pruned) mypcrelate <- pcrelate(HapMap_genoData, pcs = mypcair$vectors[，1:2]，训练。set = mypcair$unrels, BPPARAM = BiocParallel::SerialParam())

genoData是一个GenotypeIterator类对象
个人电脑是一个矩阵，其列是用于祖先调整的pc
training.set是一个个体id向量，指定哪些样本用于估计每个SNP的祖先调整

如果不需要估计IBD共享概率，则设置输入炎症性肠病。probs = FALSE会加快计算速度。

4.2pc - related的输出

的pcrelate函数将返回class的对象pcrelate，它是两个data.frames的列表:kinBtwn两两的亲属关系值，以及kinSelf近亲繁殖系数。

plot(mypcreate $ kinbtown $k0, mypcreate $ kinbtown $kin, xlab="k0"， ylab="亲缘关系")

提供了制作遗传关系矩阵(GRM)的函数。为亲缘关系使用阈值将通过将小于阈值的配对的亲缘关系设置为0来创建稀疏矩阵。对于非常大的样本量，这对于减少内存使用非常有用。

iids <- as.character(getScanID(hapap_genodata)) pcrelateToMatrix(mypcrelate, sample. character)include = iids[1:5]， thresh = 2^(-11/2)， scaleKin = 2)

## 5 x 5稀疏矩阵类“dsCMatrix”## NA19703 NA19919 NA19916 NA19835 NA20282 ## NA19703 1.02340583 0.02751476…## na19919 0.02751476 0.95198442…## na19916。1.013003。## na19835……0.9736479。## na20282 . . . .0.9667705

pcrelobj的输出。pcrelate；或者是一类pcrelate对象或GDS文件
sample.include是一个个体id的向量，指定哪些个体包含在表或矩阵中
打指定GRM中包含的最小亲属系数值
scaleKin指定GRM中亲属关系系数相乘的因子

5参考文献

康诺莫斯m.p.，赖纳a.p.，威尔b.s.，桑顿T.A.(2016)。最近遗传相关性的无模型估计。中国生物医学工程学报，28(1)，37 - 38。
康诺莫斯m.p.，米勒m.b.，桑顿T.A.(2015)。在亲缘关系存在时，用于祖先预测和校正分层的种群结构的稳健推断。遗传流行病学，39(4)，276-293。
高加滕，s.m.，班格尔，T.，康诺莫斯，m.p.，劳瑞，c.a.，麦克休，c.p.，画家，我……和劳瑞，C.C.(2012)。GWASTools:用于全基因组关联研究质量控制和分析的R/Bioconductor包。生物信息学，28(24)，3329-3331。
马尼科库尔，A.， Mychaleckyj .， j.c.， Rich, s.s.， Daly, K.， Sale, M.和陈w.m.(2010)。全基因组关联研究中的稳健关系推断。生物信息学，26(22)，2867-2873。

使用GENESIS包进行种群结构和亲缘关系推断

2022-11-01

内容

1概述

1．2调整主成分的相关性估计(pc - related)

2数据

2.1阅读基因型数据

2.1.1R矩阵

2.1.2GDS文件

2.1.3叮铃声文件

2．2人类基因组单体型图数据

4调整主成分的相关性估计(pc - related)

4．1运行PC-Relate

4.2pc - related的输出

5参考文献

使用GENESIS包进行种群结构和亲缘关系推断

2022-11-01

内容

1概述

1．1相关样品主成分分析(PC-AiR)

1．2调整主成分的相关性估计(pc - related)

2数据

2.1阅读基因型数据

2.1.1R矩阵

2.1.2GDS文件

2.1.3叮铃声文件

2．2人类基因组单体型图数据

3.相关样品主成分分析(PC-AiR)

3．1LD修剪

3.2血统差异的两两测量

3．3运行pc航空

3.3.1参考总体样本

3.3.2在不运行PCA的情况下划分一个样本

3.4PC-AiR输出

3.4.1绘图PC-AiR pc

4调整主成分的相关性估计(pc - related)

4．1运行PC-Relate

4.2pc - related的输出

5参考文献