包:grasp2db
作者:马丁·摩根
修改日期:2014-12-31
编辑日期:2017-06-29
本文档概述了创建Bioconductor版本的GRASP2数据库所采取的步骤。掌握(SNPs和表型之间关联的全基因组资源库)v2.0于2014年9月发布。Bioconductor AnnotationHub资源派生自V 2.0.0.0版本.
版本2的主要参考文献是:Eicher JD, landski C, Stackhouse B, Sloan A, Chen W, Jensen N, Lien J-P, Leslie R, Johnson AD (2014) GRASP v 2.0: snp与表型之间关联的全基因组知识库的更新。核酸研究,2014年11月26日在线发布。
grasp2db包中的其他小插图包含GRASP2数据库的详细信息。
这个脚本系统。文件(package="grasp2db", "scripts", "grasp2AnnotationHub.R")
将GRASP2处理为Bioconductor sqlite表示。脚本下载邮政编码文件,将内容解压缩为一个以制表符分隔的文本文件,执行一些必要的数据清理,并将数据存储在部分规范化的sqlite数据库中。sqlite数据库是使用Bioconductor分发的AnnotationHub包中。
数据清洗和转换为sqlite由grasp2db::: .db_create ()
函数。主要步骤包括
标准化列名
标准化数据表示的某些方面
输出到3 sqlite表。
列名是标准化使用的grasp2db::: .db_clean_colnames ()
.以下列将被重命名:
原始 | 标准化 |
---|---|
SNPid (dbSNP134) | SNPid_dbSNP134 |
科(hg19) | chr_hg19 |
pos (hg19) | pos_hg19 |
SNPid(纸) | SNPidInPaper |
InNHGRIcat(截至12年3月31日) | InNHGRIcat_3_31_12 |
初始样本说明 | DiscoverySampleDescription |
LS SNP | LS_SNP |
所有其他列名通过删除非字母字符并将后面的字母大写来转换为驼峰格式,例如:只男/女
就变成了ExclusivelyMaleFemale
.
grasp2db::: .db_clean_chunk ()
标准化的数据。
NHLBIkey应该是一个唯一的整数值标识符,但是GRASP2fullDataset文件包含47行键2.36501 e + 14
或2.29412 e + 14
.这些行已被删除。
列TotalSamples(发现+复制)
,TotalDiscoverySamples
,复制样本总数
被删除(如果需要,这些值很容易计算)。
一个列NegativeLog10PBin
用来表示几十年来log10意义的增加,轮(log10 (Pvalue))
.
的创建日期
而且LastCurationDate
列是标准化的,所以日期8/17/12
而且8/17/2012
一致地表示为8/17/2012
.
的HUBfield
的日期格式Jan2014
或14-Jan
被标准化为1/1/2014
.
的LocationWithinPaper
条目之间没有空格Table12
,Figure12
,或FullData
被替换为空间上的等价物,例如:表12
.
的dbSNPvalidation
列所取代""
,“不”
,“是的”
与逻辑NA
,假
,真正的
.
的dbSNPClinStatus
列条目被标准化为小写。
的表型
(和其他?)列包含使用CP1250编码的字符串表示(显然),以及仅因字符大小写而不同的变体。在R和支持CP1250编码的平台上,可以使用
P = iconv(表型,"CP1250", "UTF-8") P = tolower(P)表型= P[匹配(P, P)]
数据部分归一化为3个表。
研究
包含关于数据库中存在的每个发布的信息,使用PMID
作为唯一的键。看到grasp2db::: .db_accumulate_study ()
.
数
包含每种变体被发现的样本数量,由样本(发现
或复制
)和人口(例如,欧洲
,拉美裔
),使用NHLBIkey
作为唯一的键。看到grasp2db::: .db_write_count ()
.
变体
包含关于每个变体的信息,特别是NHLBIkey
而且PMID
将此表与研究
而且数
表。看到grasp2db::: .db_write_variant ()
.
在PMID(变异表和研究表)和NHLBIkey(变异表和计数表)字段上创建索引,在Phenotype、dbSNPid、染色体和位置以及NegativeLog10PBin字段(变异表)上创建索引。
数据库可在此包中作为
library(grasp2db) GRASP2() # dbplyr表示
或者更直接地说
library(注解hub) db <-注解hub ()[["AH21414"]]
在这两种情况下,(大型)数据库都被下载到本地缓存(请参阅AnnotationHub包);第一次使用数据库时,这可能需要几分钟时间。