内容

1版本信息

R版本: R正在开发中(不稳定)(2022-10-25 r83175)
Bioconductor版本: 3.17
包版本: 1.23.0

2设置:将NHGRI GWAS目录作为基于hg38的GRanges

library(gwascat) cur = makeCurrentGwascat() #结果每天变化
数据(坏蛋)坏蛋
gwasloc实例,有65795条记录,每个记录37个属性。##提取:2018-04-24 ##基因组:GRanges对象5个范围和3个元数据列:## seqnames范围链| DISEASE/TRAIT SNPS P-VALUE ##    | <字符> <字符> <数字> ##[1]17 78284479 * |炎性皮肤di。rs9302874 ##[2] 10 129683009 * |炎性皮肤di..##[3] 1 247490110 * |炎性皮肤di..* |炎症性皮肤di..rs35741374 4e-12 ##[5] 1 152619805 * |炎症皮肤di..rs1581803 2e-12 ## ------- ## seqinfo:来自2个基因组的24个序列(GRCh38, NA)

3.资源:hg38到hg19转换的链文件

到hg19坐标的转换由UCSC提供的链文件定义。rtracklayer:导入。chain会将数据带入R。

Library (rtracklayer) path = system。file(package="liftOver", "extdata", "hg38ToHg19.over.chain") ch = import.chain(path) ch
##长度25 ##名称(25):chr22 chr21 chr19 chr20 chrY chr18…Chr6 chr5 chr4 chr3 chr2 chr1
str (ch [[1]])
##正式类“ChainBlock”[包“rtracklayer”]有6个插槽## ..@ ranges:正式类“IRanges”[包“IRanges”],有6个插槽## .. .. ..@ start: int[1:6842] 16367189 16386933 16386970 16387001 16387128 16395491 16395528 16395841 16395860 16395956…## .. .. ..@ width: int[1:6842] 19744 36 31 112 8362 36 312 18 95 33…## .. .. ..@ names: null ## .. .. ..@ elementType: chr“ANY”## .. .. ..@ elementMetadata: NULL ## .. .. ..@ metadata: list() ## ..@ offset: int[1:6842] -480662 -480702 -480702 -480726 -480726 -480726 -480726 -480726 -480726 -480726 -480726 -480726 -480726 -480726 -480726 -480726 -480726 -480726 -480726 -480726 -480726 -480726 -480726 -480726…# # . .@ score : int [1:1168] -1063867308 68830488 21156147 20814926 7358950 3927744 2928210 991419 880681 802146 ... ## ..@ space : chr [1:1168] "chr22" "chr14" "chr22" "chr21" ... ## ..@ reversed: logi [1:1168] FALSE FALSE FALSE FALSE FALSE FALSE ... ## ..@ length : int [1:1168] 1124 1280 173 465 398 110 43 173 342 84 ...

关于链数据结构的更多细节可以在导入中找到。链条手册页

链文件本质上详细描述了许多局部对齐,因此“from”范围可以映射到另一个序列中的重叠区域。“from”范围保证是不相连的(但不一定涵盖整个“from”序列)。

4行动:liftOver

liftOver函数将创建一个GRangesList。

seqlevelsStyle(cur) = "UCSC" #必要的cur19 = liftOver(cur, ch)类(cur19)
## [1] "CompressedGRangesList" ## attr(,"package") ## [1] "GenomicRanges"

我们取消列表并强制到gwaswloc类,这是GWAS目录的一种方便的形式,具有许多mcols字段。

Cur19 = unlist(Cur19) genome(Cur19) = "hg19" Cur19 = new("gwaswloc", Cur19) Cur19
gwasloc实例,有65757条记录,每个记录37个属性。##提取:##基因组:hg19 ##摘录:## GRanges对象,5个范围和3个元数据列:## seqnames范围链| DISEASE/TRAIT SNPS P-VALUE ##    | <字符> <字符> <数字> ## [1]chr17 76280560 * |炎症皮肤di。rs9302874 2e ## [2] chr10 131481273 * |炎症皮肤di..炎性皮肤di..## [4] chr2 * |炎性皮肤di..rs35741374 ## [5] chr1 152592281 * |炎症皮肤di..Rs1581803 2e-12 ## ------- ## seqinfo:来自hg19基因组的24条序列;没有seqlengths

我们看到转译导致了一些位点的丢失。

长度(坏蛋)长度(cur19)
38 . ## [1]
setdiff (mcols(坏蛋)美元SNPS, mcols (cur19)美元SNPS)
##[1]“rs757210”“rs8064454”“rs644148”“rs9876781”##[6]“rs1167796”“rs649129”“rs11672691”“rs4911642”“rs718433”##[11]“rs138700403”“rs144184641”“rs147767607”“rs148916504”“rs149506335”##[16]“rs192514996”“rs2734221”“rs2855983”“rs4457242”“rs7777677”##[21]“rs201386833”“rs3757378”“rs400942”“rs11263761”“rs8176645”##[26]“rs11785400”“rs451000”“rs450937”“rs12601991”“rs7256693”##[31]“rs3020736”“rs453755”

可能会很有趣跟进一些损失。