内容

包:grasp2db
作者:马丁·摩根
修改日期:2014-12-31
编辑日期:2017-06-29

1简介

本文档概述了创建Bioconductor版本的GRASP2数据库所采取的步骤。掌握(SNPs和表型之间关联的全基因组资源库)v2.0于2014年9月发布。Bioconductor AnnotationHub资源派生自V 2.0.0.0版本

版本2的主要参考文献是:Eicher JD, landski C, Stackhouse B, Sloan A, Chen W, Jensen N, Lien J-P, Leslie R, Johnson AD (2014) GRASP v 2.0: snp与表型之间关联的全基因组知识库的更新。核酸研究,2014年11月26日在线发布。

grasp2db包中的其他小插图包含GRASP2数据库的详细信息。

2处理

这个脚本系统。文件(package="grasp2db", "scripts", "grasp2AnnotationHub.R")将GRASP2处理为Bioconductor sqlite表示。脚本下载邮政编码文件,将内容解压缩为一个以制表符分隔的文本文件,执行一些必要的数据清理,并将数据存储在部分规范化的sqlite数据库中。sqlite数据库是使用Bioconductor分发的AnnotationHub包中。

数据清洗和转换为sqlite由grasp2db::: .db_create ()函数。主要步骤包括

  1. 标准化列名

  2. 标准化数据表示的某些方面

  3. 输出到3 sqlite表。

2.1标准化列名

列名是标准化使用的grasp2db::: .db_clean_colnames ().以下列将被重命名:

原始 标准化
SNPid (dbSNP134) SNPid_dbSNP134
科(hg19) chr_hg19
pos (hg19) pos_hg19
SNPid(纸) SNPidInPaper
InNHGRIcat(截至12年3月31日) InNHGRIcat_3_31_12
初始样本说明 DiscoverySampleDescription
LS SNP LS_SNP

所有其他列名通过删除非字母字符并将后面的字母大写来转换为驼峰格式,例如:只男/女就变成了ExclusivelyMaleFemale

2.2数据清理

grasp2db::: .db_clean_chunk ()标准化的数据。

NHLBIkey应该是一个唯一的整数值标识符,但是GRASP2fullDataset文件包含47行键2.36501 e + 142.29412 e + 14.这些行已被删除。

TotalSamples(发现+复制)TotalDiscoverySamples,复制样本总数被删除(如果需要,这些值很容易计算)。

一个列NegativeLog10PBin用来表示几十年来log10意义的增加,轮(log10 (Pvalue))

创建日期而且LastCurationDate列是标准化的,所以日期8/17/12而且8/17/2012一致地表示为8/17/2012

HUBfield的日期格式Jan201414-Jan被标准化为1/1/2014

LocationWithinPaper条目之间没有空格Table12Figure12,或FullData被替换为空间上的等价物,例如:表12

dbSNPvalidation列所取代""“不”“是的”与逻辑NA真正的

dbSNPClinStatus列条目被标准化为小写。

2.2.1悬而未决的问题

表型(和其他?)列包含使用CP1250编码的字符串表示(显然),以及仅因字符大小写而不同的变体。在R和支持CP1250编码的平台上,可以使用

P = iconv(表型,"CP1250", "UTF-8") P = tolower(P)表型= P[匹配(P, P)]

2.3SQLite表示

数据部分归一化为3个表。

研究包含关于数据库中存在的每个发布的信息,使用PMID作为唯一的键。看到grasp2db::: .db_accumulate_study ()

包含每种变体被发现的样本数量,由样本(发现复制)和人口(例如,欧洲拉美裔),使用NHLBIkey作为唯一的键。看到grasp2db::: .db_write_count ()

变体包含关于每个变体的信息,特别是NHLBIkey而且PMID将此表与研究而且表。看到grasp2db::: .db_write_variant ()

在PMID(变异表和研究表)和NHLBIkey(变异表和计数表)字段上创建索引,在Phenotype、dbSNPid、染色体和位置以及NegativeLog10PBin字段(变异表)上创建索引。

3.使用

数据库可在此包中作为

library(grasp2db) GRASP2() # dbplyr表示

或者更直接地说

library(注解hub) db <-注解hub ()[["AH21414"]]

在这两种情况下,(大型)数据库都被下载到本地缓存(请参阅AnnotationHub包);第一次使用数据库时,这可能需要几分钟时间。