Xiuwen郑博士(西雅图华盛顿大学的生物统计学)
2016年6月25日
全基因组测序(WGS)数据生成正在以前所未有的速度
CoreArray (c++库)
两个R包
作为VCF SeqArray提供了相同的功能
将数据存储在一个二进制和array-oriented方式
基因型存储在一个压缩的方式
并行访问
文件:SeqArray / extdata / CEU_Exon。gds (387.3 k) | - +描述[]* | +样品。id {Str8 90 ZIP_ra (30.8%)、222 b} | - +变体。id {Int32 1348 ZIP_ra (35.7%), 1.9 k} | - +位置{Int32 1348 ZIP_ra (86.4%), 4.6 k} | - +染色体{Str8 1348 ZIP_ra (2.66%)、91 b} | - +等位基因{Str8 1348 ZIP_ra (17.2%)、928 b} | - +基因型[]* | \ +数据{Bit2 2 x90x1348 ZIP_ra (28.4%), 16.8 k} * | +阶段[]| \——+数据{Bit1 90 x1348 ZIP_ra (0.36%)、55 b} * | - +注释[]| | - + id {Str8 1348 ZIP_ra (41.0%), 5.8 k} | | - + 8 {Float32 1348 ZIP_ra (0.91%), 49 b} | | - +过滤{Int32,因素1348 ZIP_ra (0.89%)、48 b} * | | - +信息[]| | | - + AA {Str8 1348 ZIP_ra (24.2%)、653 b} * | | \——+款HM2 {Bit1 1348 ZIP_ra (117.2%)、198 b} * | \[] | - +格式\——+ DP[] * | \ +数据{Int32 90 x1348 ZIP_ra (33.8%), 160.3 k} \——+样品。注释[]\——+家庭{Str8 90 ZIP_ra (34.7%)、135 b}
表1:SeqArray包中的关键功能。
函数 | 描述 |
---|---|
seqVCF2GDS | 重新格式化VCF文件 |
seqSetFilter | 定义了一个样品或变量的数据子集 |
seqGetData | 得到数据从SeqArray文件定义过滤器 |
seqApply | 适用于一个用户定义的函数对数组的利润率 |
seqParallel | 应用函数在计算集群 |
#加载R包图书馆(SeqArray)#打开文件genofile < -seqOpen(“1 kg_chr1.gds”)#应用一个用户定义函数/变量system.time(afreq < -seqApply(genofile“基因”,有趣的=函数(x) {的意思是(x= =0 l,na.rm =真正的)},人群收税=“替身”,利润=“by.variant”))
10.8分钟在Linux上,英特尔至强处理器@2GHz和128 gb RAM函数(x){意味着(x = = 0 l, na.rm = TRUE)}
是一个用户定义的函数,在哪里x
是一个整数矩阵:
0 -参考等位基因,1 -第一个替代等位基因
seqParallel ()
基因型分裂成4重叠的部分根据不同的内核。
#加载R包图书馆(平行)#创建一个计算集群4核seqParallelSetup(4)#并行运行system.time(afreq < -seqParallel(gdsfile =genofile,有趣的=函数(f) {seqApply(f,“基因”,人群收税=“替身”,利润=“by.variant”,有趣的=函数(x)的意思是(x= =0 l,na.rm =真正的))},分=“by.variant”))
3.1分钟(与10.8年的测试(1)
图书馆(Rcpp)#动态定义内联C / c++函数RcppFunction(“双RefAlleleFreq (IntegerMatrix x) {int nrow = x.nrow (), ncol = x.ncol ();int问= 0,zero_cnt = 0, g;for (int i = 0;我< nrow;我+ +){for (int j = 0;j < ncol;j + +) {如果((g = x (i, j)) ! = NA_INTEGER) {问+ +;如果(g = = 0) zero_cnt + +;}}}返回的两倍(zero_cnt) /问;}')system.time(afreq < -seqApply(genofile“基因”RefAlleleFreq,人群收税=“替身”,利润=“by.variant”))
1.5分钟(快很多!与10.8年的测试(1)
SeqArray是极大的兴趣
SeqVarTools (Bioconductor)
SNPRelate (Bioconductor)
https://gds-stat.s3.amazonaws.com/download/1000g/index.html
1000人基因工程阶段3:
部门——西雅图华盛顿大学生物统计学
遗传分析中心: