包版本:SGSeqBioC2015 0.0.1

内容

1拼接事件检测和定量从RNA-seq数据与SGSeq

[1,2]

生物信息学与计算生物学系,

分子生物学系,

Genentech, Inc.,南旧金山,CA,美国。

1.1摘要

SGSeq包提供了一个框架,用于分析RNA-seq数据中的注释和新剪接事件。SGSeq从与参考基因组对齐的reads中预测外显子和剪接连接,并将它们组装成全基因组剪接图。从图中识别剪接事件,并使用跨越事件边界的读取进行量化。本研讨会将介绍SGSeq功能,包括拼接事件检测,量化,注释和可视化。第一部分完整的讲解了工作坊SGSeq从BAM文件开始分析感兴趣基因的工作流。研讨会的第二部分涵盖了基于以前处理的全基因组数据集的练习SGSeq

1.2预赛

库(SGSeq)

本研讨会的第一部分阐述了对来自四个肿瘤和四个正常结直肠样本的配对端RNA-seq数据的分析,这些样本是发表在[Seshagiri et al. 2012] (# Seshagiri)上的数据集的一部分。为了实现本文的目的,我们创建了BAM文件,其中只包括映射到单个感兴趣基因(FBXO31).

当开始一个新项目时,SGSeq需要被分析样品的信息。此信息可以作为data.frame,其中必须包含列sample_name(为每个示例指定唯一的名称)和file_bam(指定BAM文件的位置)。函数getBamInfo可用于从BAM文件中提取额外的库信息,包括配对端状态、中值读取长度、中值插入大小和读取对齐的总数。这些信息必须最初获得一次,然后可以用于所有后续的分析。使用支持拼接的对齐程序生成BAM文件至关重要,该程序生成自定义标记“XS”,指示拼接读取的转录方向。下面,我们将使用data.frame如果从原始(完整的)带函数的BAM文件生成getBamInfo

如果
## sample_name file_bam paired_end read_length frag_length lib_size ## 1 N1 N1bam TRUE 75 293 12405197 ## 2 N2。bam TRUE 75 197 13090179 ## 3 N3 N3。bam TRUE 75 206 14983084 ## 4 N4 N4。bam TRUE 75 207 15794088 ## 5 T1 T1。bam TRUE 75 284 14345976 ## 6 T2 T2。bam TRUE 75 235 15464168 ## 7 T3 T3。bam TRUE 75 259 15485954 ## 8 T4 T4。bam TRUE 75 247 15808356

下面的代码块在示例信息中为这个小插图设置正确的BAM文件路径。

路径<- system. Path。file("extdata", package = "SGSeq") si$file_bam <- file. file("extdata", package = "SGSeq")路径(Path, "bams", si$file_bam)

1.3文本功能和TxFeatures

我们使用UCSC knownGene表作为参考注释,它可以作为Bioconductor注释包TxDb.Hsapiens.UCSC.hg19.knownGene.我们在16号染色体上保留转录本,在那里FBXO31,并更改注释中的染色体名称以匹配BAM文件中的染色体名称。

txdb <- txdb . hsapiens . ucsc .hg19. knowngeneknownGene txdb <- keepSeqlevels(txdb, "chr16") seqlevelsStyle(txdb) <- "NCBI"

的文本注释SGSeq框架,我们首先提取外显子和剪接连接TxDb使用函数的对象convertToTxFeatures.我们只保留重叠的特征FBXO31基因(基因组坐标)FBXO31基因都储存在农庄对象gr).

txf_ucsc <- converttoxfeatures (txdb)
## converttoxfeatures (txdb)中的警告:合并的相邻外显子
Txf_ucsc <- Txf_ucsc [Txf_ucsc %over% gr] Txf_ucsc
## seqnames范围链类型##     ## [1] 16 [87362942,87365116] - l# # [2] 16 [87365116, 87367492] - j# # [3] 16 [87367492,87367892] - j# # [5] 16 [87368910, 87369063] - i# # [1] ... ... ... ... ...## [19] 16 [87417011,87417394] - F ## [20] 16 [87417628,87417700] - U ## [21] 16 [87423343,87423454] - I ## [22] 16 [87423454,87425689] - J ## [23] 16 [87425689, 87425708] - F ## txName geneName ##   ## [1] uc002fjv.3,uc002fjw.3,uc010vot. ## > ## [1] uc002fjv.3,uc002fjw.3。2 79791 ## [2] uc002fjv.3,uc002fj .3,uc010vot。2 79791 ## [3] uc002fjv.3,uc002fj .3,uc010vot。2 79791 ## [4] uc002fjv.3,uc002fj .3,uc010vot。2 79791 ## [5] uc002fjv.3,uc002fj .3,uc010vot。2 79791 ## ... ... ...## [19] uc002fjw。3 79791 ## [20] uc021tmi。1 ## [21] uc010vot。2 ##, ##, #;2 ##, ##, #;2 79791 ## ------- ## seqinfo: 1个来自hg19基因组的序列

SGSeq广泛使用Bioconductor基因组范围的基础设施([Lawrence et al. 2013] (# Lawrence))。的TxFeatures类扩展了农庄使用其他元数据列初始化。列类型可以取值

txName而且geneName指出每个特征的转录本和基因来源。注意,一个特性可以属于多个文本。因此,这些列可以为每个特性存储多个值。

元数据列可以使用以它们所访问的列命名的访问器函数来访问(例如,use function类型获取特征类型)。

如果文本注释不可用TxDb对象,函数convertToTxFeatures可以构造TxFeatures从一个GRangesList外显子的转录分组(见练习(#练习)。

1.4拼接图特征和SGFeatures

外显子存储为TxFeatures可能重叠(例如,由于不同的剪接位置),导致歧义(例如,当试图将读取分配给单个外显子时)。因此,我们将外显子区划分为不相连的外显子箱。剪接连接和不连接的外显子箱唯一地决定了全基因组剪接图([Heber et al. 2002] (# Heber))。为了存储拼接图特征,SGSeq实现了SGFeatures类。

sgf_ucsc <- convertToSGFeatures(txf_ucsc) sgf_ucsc
## seqnames ranges strand type splice5p splice3p ##       ## [1] 16 [87362942,87365116] - E TRUE FALSE ## [2] 16 [87365116, 87365116] - A   ## [3] 16 [87365116, 87367492] - J   ## [4] 16 [87367492, 87367492] - D   ## [5] 16 [87367492, 87367892] - E TRUE TRUE ## ... ... ... ... ... ... ...## [38] 16 [87423343, 87423454, 87423454] - A   ## [40] 16 [87423454, 87425689] - J   ## [41] 16 [87425689, 87425689] - D   ## [42] 16 [87425689, 87425708] - E FALSE TRUE ## featureID geneID txName ##    ## [1] 1 1 uc002fjv.3,uc002fjw.3,uc010vot。2 ## [2] 2 1 uc002fjv.3,uc002fjw.3,uc010vot。2 ## [3] 3 1 uc002fjv.3,uc002fjw.3,uc010vot。2 ## [4] 4 1 uc002fjv.3,uc002fjw.3,uc010vot。2 ## [5] 5 1 uc002fjv.3,uc002fjw.3,uc010vot。2 ## ... ... ... ...## [38] 38 uc010vot。2 ## [39] 39 uc010vot。2 ## [40] 40 1 uc010vot。2 ## [41] 41 uc010vot。2 ## [42] 42 uc010vot。2 # # geneName # # < CharacterList > # # # # 79791[1][2] 79791 # # 79791 # #[4] 79791[3] # # 79791年[5]  ## ... ...## [38] 79791 ## [40] 79791 ## [41] 79791 ## [42] 79791 ## ------- ## seqinfo:来自hg19基因组的1个序列

类似于TxFeaturesSGFeatures扩展了农庄使用其他元数据列初始化。列类型对于一个SGFeatures对象接受值

按照惯例,剪接的供体和受体位点分别对应于内含子上游和下游的外显子位置。中包含的剪接结决定剪接位点,在这种意义上,剪接位点是冗余的SGFeatures对象。当为每个特征分配读取计数时(见下文),外显子和剪接结的计数基于结构兼容的读取。在剪接供体和受体位点的情况下,计数表示跨越剪接边界的读取数(即重叠剪接位点,以及侧翼内含子位置)。中包含了拼接站点SGFeatures对象,因为拼接站点计数随后用于拼接变量量化。

SGFeatures包含未包含的其他元数据列TxFeaturesspliced5p而且spliced3p指示外显子箱是否在5处有强制剪接\ (^ \ ' \)和3\ (^ \ ' \)分别边界。该信息用于确定读取的内容在结构上是否与外显子箱兼容,以及确定外显子箱是否与带注释的转录本一致。

featureID为每个特性提供唯一标识符,而列geneID表示一个特征所属的拼接图的唯一连接组件。

这两个TxFeatures而且SGFeatures对象可以使用函数导出到BED文件exportFeatures

1.5基于注释文本的分析

我们现在可以开始分析rna测序数据了FBXO31基因位点。我们首先根据注释的文本进行分析。下面的示例将转录本特征转换为拼接图特征,并获得每个特征和每个样本的兼容RNA-seq读取计数。

sgfc_ucsc <- analyzeFeatures(si, features = txf_ucsc)
##流程特性…##获取计数…
sgfc_ucsc
##类:sgfeaturerts ## dim: 42 8 ##元数据(0):## assays(2):计数FPKM ## rownames: NULL ## rowRanges元数据列名(0):## colnames(8): N1 N2…T3 T4 ## colData names(6): sample_name file_bam…frag_length lib_size

analyzeFeatures返回class的对象SGFeatureCounts,扩展了RangedSummarizedExperiment类的SummarizedExperiment包中。SGFeatureCounts包含样例信息为colData,拼接图特征为rowRanges和化验计数而且FPKM,分别存储结构兼容计数和fpkm。访问器功能colDatarowRanges计数而且FPKM可以用来访问数据。

用于拼接图特征的兼容fpkm可以通过函数进行可视化plotFeaturesplotFeatures生成一个两个面板的图形,其中一个拼接图显示在顶部面板中,一个热图显示在底部面板中各个特征的表达水平。用于定制plotFeatures输出,参见节可视化(#可视化)。绘图函数无形地返回data.frame有剪接图特征的信息,包括基因组坐标。

df <- plotFeatures(sgfc_ucsc, geneID = 1)

df
名称类型featureID颜色# # 1 # # id E1 E: 16:87425689 - 87425708: 42 - E黑# # 2 E2 E: 16:87423343 - 87423454: 38 - E黑# # 3 E3 E: 16:87417011 - 87417394: 35 - E黑色# # 4 E4 E: 16:87393973 - 87394561: 33 - E黑色# # 5 E5 E: 16:87393901 - 87393972: 29 - E黑色# # 6 E6 E: 16:87380780 - 87380856: 25 - E黑色# # 7 E7 E: 16:87377204 - 87377371: 21 - E黑色# # 8 E8 E: 16:87376483 - 87376557: 17 - E黑色# # 9 E9 E: 16:87369761 - 87369870: 13 - E黑色# # 10 E10 E:黑色16:87368910 - 87369063:- E 9 # # 11 E11艾凡:16:87367492 - 87367892:- E 5黑色# # 12 E12汽油E: 16:87362942 - 87365116: - E 1 J - 1 J的黑色# # 13:16:87423454 - 87425689:- J黑色40 # # 14 J2: 16:87393972 - 87423343: - J:黑色32 # # 15 J3: 16:87393972 - 87417011: - J 31黑# # 16阁下:16:87380856 - 87393901:- J 27黑色# # 17 J5: 16:87377371 - 87380780: - J卫星黑色23 # # 18:16:87376557 - 87377204:- J 19黑色# # 19 J7: 16:87369870 - 87376483: - J 15黑色# # 20 J8: 16:87369063 - 87369761: - J 11黑# # 21 J9: 16:87367892 - 87368910: J 7 # # 22 J10黑人J: 16:7 7365116-87367492:- J 3黑

请注意,从注释的转录本派生的拼接图包括三个可选的转录本起始点(tss)。然而,热图表明在我们的数据集中的样本中没有使用第一个TSS。

1.6基于新创预测

与其依赖现有的注释,SGSeq可以直接从BAM文件中预测特性。下面的代码块预测数据集中读取证据的拼接图特征。

sgfc_pred <- analyzeFeatures(si, which = gr)
##预测功能…##流程特性…##获取计数…

为了可解释性,我们对UCSC knownGene表中包含的转录本进行了注释。的注释函数为每个特性分配兼容的转录本,并将它们存储在元数据列中txName.元数据列geneName行为是传递的,这意味着所有特征都属于拼接图的相同连接组件(具有相同的geneID)具有相同的价值geneName.这种行为可以很容易地识别未加注释的特性(使用emptytxName),属于注释基因(非空geneName).

Sgfc_pred <-注释(Sgfc_pred, txf_ucsc)

预测的拼接图特征和兼容fpkm可以像前面一样可视化。可以使用参数突出显示缺少注释的拼接图特征color_novel

df <- plotFeatures(sgfc_pred, geneID = 1, color_novel = "red")

df
名称类型featureID颜色# # 1 # # id E1 E: 16:87417011 - 87417348: 38 - E黑# # 2 E2 E: 16:87393901 - 87393972: 34 - E黑# # 3 E3 E: 16:87392017 - 87392103: 30 - E黑色# # 4 E4 E: 16:87380780 - 87380856: 25 - E黑色# # 5 E5 E: 16:87377204 - 87377371: 21 - E黑色# # 6 E6 E: 16:87376483 - 87376557: 17 - E黑色# # 7 E7 E: 16:87369761 - 87369870: 13 - E黑色# # 8 E8 E: 16:87368910 - 87369063: - E 9黑色# # 9 E9 E: 16:87367492 - 87367892: - E 5黑色# # 10 E10 E: 16:87362930 - 87365116: - E 1黑色# # 11 j - 1J: 16:87393972 - 87417011: J黑色36 # # 12 J2 J: 16:87392103 - 87393901: - J:黑色32 # # 13 J3: 16:87380856 - 87393901: - J 28黑色# # 14阁下:16:87380856 - 87392017:- J 27个黑色# # 15个J5: 16:87377371 - 87380780: - J卫星黑色23 # # 16:16:87376557 - 87377204:- J 19黑色# # 17 J7: 16:87369870 - 87376483: - J 15黑色# # 18 J8: 16:87369063 - 87369761: - J 11黑# # 19 J9: 16:87367892 - 87368910: - J 7黑色# # 20 J10: 16:87365116 - 87367492: J 3黑色

请注意,从RNA-seq数据预测的大多数外显子和剪接连接与UCSC knownGene表中的转录本一致(灰色显示)。然而,与前面的图相反,预测的基因模型不包括拼接图中没有在我们的数据集中表达的部分。此外,从RNA-seq数据中发现了一个未注释的外显子(E3,红色部分),该外显子在4个正常结肠直肠样本中的3个(N2, N3, N4)中表达。

1.7预测剪接变异分析

而不是考虑一个基因的完整剪接图,我们可以将我们的分析集中在单个剪接事件上。在SGSeq框架下,剪接图为有向无环图,节点对应转录本起始点、结束点和剪接点,边对应不相交的外显子箱和剪接点,从5开始定向\ (^ \ ' \)到3号\ (^ \ ' \)结束。拼接事件定义为由两条或多条路径连接的开始节点和结束节点,并且没有所有路径相交的中间节点。SGSeq从图中递归地标识拼接事件,并基于跨越事件边界的兼容读取估计拼接变量的相对使用情况。下面的示例从拼接图中标识拼接事件,并获得每个拼接变体的代表性计数。

sgvc_pred <- analyzvariants (sgfc_pred)
##查找片段…##寻找变体…##注释变量…
sgvc_pred
##类:SGVariantCounts ## dim: 2 8 ##元数据(0):## assays(5): countsVariant5p countsTotal5p countsVariant3p ## countsTotal3p variantFreq ## rownames(2): 1 2 ## rowRanges元数据列名(16):from to…variantType ## variantName ## colnames(8): N1 N2…T3 T4 ## colData names(6): sample_name file_bam…frag_length lib_size

analyzeVariants返回一个SGVariantCounts对象。类似于SGFeatureCountsSGVariantCounts扩展了RangedSummarizedExperiment类。SGVariantCounts包含示例信息,如colData而且SGVariants作为rowRanges.分析variantFreq存储每个拼接变体和样本的相对使用估计。访问器功能colDatarowRanges而且variantFreq可以用来访问数据。的元数据列中存储有关拼接变量的信息SGVariants对象,可按如下方式访问。

mcols (sgvc_pred)
# # DataFrame 2行16列从输入# # featureID segmentID # # <人物> <人物> <人物> <人物> <人物> # # 1 D: 16:87393901:——:16:87380856:28 - J 4 # # 2 D: 16:87393901:——:16:87380856:——JEJ 32岁,30日,27日2 # # closed3p closed5p geneID eventID variantID featureID5p # # <逻辑> <逻辑> <整数> <整数> <整数> < IntegerList > # # 1真的真的1 1 1 28 # # 2真的真的1 1 2 32 # # featureID3p txName geneName # # < IntegerList > < CharacterList > < CharacterList > # # 1 28uc002fjv.3、uc002fjw.3 uc010vot。2 79791 ## 2 27 79791 ## variantType variantName ##   ## 1 SE:S 79791_1_1/2_SE ## 2 SE:I 79791_1_2/2_SE

拼接变量和相对使用的估计可以用函数可视化plotVariants

plotvariables (sgvc_pred, eventID = 1, color_novel = "red")

plotVariants生成类似于的双面板图形plotFeatures.顶部面板中的拼接图说明了所选的拼接事件。在本例中,剪接事件由两个剪接变体组成,它们对应于未注释的外显子的跳过或包含。热图说明了每个拼接变体的相对使用估计。我们观察到样本N2, N3和N4显示了包括外显子的转录本以及跳过外显子的转录本的证据。其余样本显示很少有外显子包含的证据。

1.8可视化

功能plotFeatures而且plotVariants支持许多自定义图形的选项。请注意,顶部图形面板中的拼接图是按函数绘制的plotSpliceGraph,可直接调用。

plotFeatures包含多个可选参数,用于选择要显示的特性。下面的代码演示了选择和绘制的拼接图和表达式级别的三种不同方法FBXO31(Entrez ID 79791)。

plotFeatures(sgfc_pred, geneID = 1) plotFeatures(sgfc_pred, geneName = "79791") plotFeatures(sgfc_pred, which = gr)

缺省情况下,由plotFeatures显示拼接连接。或者,可以显示外显子箱,或者外显子箱和剪接结都可以显示。

plotFeatures(sgfc_pred, geneID = 1, include = " connections ") plotFeatures(sgfc_pred, geneID = 1, include = "exons")

论点toscale控制按比例绘制基因模型的哪些部分。

plotFeatures(sgfc_pred, geneID = 1, toscale = "gene") plotFeatures(sgfc_pred, geneID = 1, toscale = "exon")

热图可以可视化剪接结和外显子箱的表达值。或者,每个基读覆盖和拼接结计数可以用函数可视化plotCoverage

par(mfrow = c(5,1), mar = c(1,3,1,1)) plotSpliceGraph(rowRanges(sgfc_pred), geneID = 1, toscale = "none", color_novel = "red") for (j in 1:4) {plotCoverage(sgfc_pred[, j], geneID = 1, toscale = "none")}

1.9先进的使用

功能analyzeFeatures而且analyzeVariants包装多个分析步骤方便。或者,可以直接调用执行单独步骤的函数。例如,前面的分析使用新创可以进行如下预测。

txf <- predictTxFeatures(si, gr) sgf <- convertToSGFeatures(txf) sgf <- annotate(sgf, txf_ucsc) sgfc <- getsgfeaturecrets (si, sgf) sgv <- findsgvariables (sgf)
##查找片段…##寻找变体…##注释变量…
sgvc <- getSGVariantCounts(sgv, sgfc)

predictTxFeatures而且getSGFeatureCounts可以在单个示例上运行(例如,用于在高性能计算集群上分布)。predictTxFeatures预测每个样本的特征,合并样本间的特征,最后对预测的末端外显子进行过滤和处理。当使用predictTxFeatures对于单个样本,其预测将在稍后的时间点合并,运行predictTxFeatures与参数min_overhang = NULL抑制末端外显子的加工。然后,预测随后可以与函数合并和处理mergeTxFeatures而且processTerminalExons,分别。

1.10练习

练习1构造一个TxFeatures对象获取带有三个外显子的转录本。如果你添加一个与第一个转录本中的外显子共享或重叠的外显子的第二个转录本会发生什么?如果你转换TxFeatures对象的SGFeatures对象?

tx_1 <- GRangesList(tx_1 = GRanges("1", IRanges(c(101, 301, 501), c(200,400,600)), "+") tx_2 <- GRangesList(tx_2 = GRanges("1", IRanges(c(101, 351, 701), c(200,400,800)), "+") txf_1 <- converttoxfeatures (tx_1) txf_2 <- converttoxfeatures (tx_2) txf <- converttoxfeatures (c(tx_1, tx_2)) sgf <- converttoxfeatures (c(tx_1, tx_2)) sgf <- converttoxfeatures (c(tx_1, tx_2)) par(mfrow = c(1,1)) plotSpliceGraph(sgf)

以下练习基于全基因组预测,这些预测来自Illumina Body Map 2.0 ([Farrell et al. 2014] (# Farrell))中生成的成对端RNA-seq数据。数据的处理如下面的代码块所示(由于BAM文件不可用,代码将无法运行)。

sgfc_IBM <- analyzeFeatures(si_IBM, alpha = 5, psi = 0.2, beta = 0.2, gamma = 0.2) sgvc_IBM <- analyzeVariants(sgfc_IBM, min_分母= 20)exclude <- eventID(sgvc_IBM)[!closed5p(sgvc_IBM) | !closed3p(sgvc_IBM)] sgvc_IBM <- sgvc_IBM[!eventID(sgvc_IBM) %in% exclude,]

我们加载先前获得的SGSeq预测sgfc_IBM而且sgvc_IBM

data(sgfc_IBM, sgvc_IBM, package = "SGSeqBioC2015")

练习2注释SGFeatureCounts而且SGVariantCounts对象与UCSC knownGene表中包含的转录本相关(这可能需要几分钟)。

txdb <- restoreSeqlevels(txdb) seqlevelsStyle(txdb) <- "NCBI" txdb <- keepSeqlevels(txdb, c(1:22, "X", "Y")) txf_ucsc <- convertToTxFeatures(txdb) sgfc_IBM <-注解(sgfc_IBM, txf_ucsc) sgvc_IBM <-注解(sgvc_IBM, txf_ucsc)

练习3绘制基因的基因模型KIFAP3(Entrez ID 22920)。预测的基因模型的哪些部分是未注释的,它们在哪些组织中表达?检查剪接结和外显子的表达水平。

plotFeatures(sgfc_IBM, geneName = "22920", color_novel = "red")

练习4为基因绘制未注释的拼接事件KIFAP3

mcols(sgvc_IBM)[any(geneName(sgvc_IBM) == "22920"),] plotvariant (sgvc_IBM, eventID = 552, color_novel = "red")

练习5(困难)找到高表达的无注释盒式外显子的基因。你能解释顶层基因的预测剪接图吗?

selected <- which(elementlength (txName(sgvc_IBM)) == 0 & any(variantType(sgvc_IBM) == "SE:I"))变体<- rowRanges(sgvc_IBM)[selected] features <- unlist(变体)exons <- features[type(features) == "E"] exons_FPKM <- FPKM(sgfc_IBM)[match(featureID(exons), featureID(sgfc_IBM))] exons_FPKM_max <- apply(exons_FPKM, 1, max) geneID <- geneID(exons)[order(exons_FPKM_max,递减= TRUE)] plotFeatures(sgfc_IBM, geneID = geneIDs[1], color_novel = "red")

1.11参考文献

Seshagiri S, Stawiski EW, Durinck S, Modrusan Z, Storm EE, Conboy CB, Chaudhuri S, Guan Y, Janakiraman V, Jaiswal BS, Guillory J, Ha C, Dijkgraaf GJP, Stinson J, Gnad F, Huntley MA, Degenhardt JD, Haverty PM, Bourgon R, Wang W, Koeppen H, Gentleman R, Starr TK, Zhang Z, Largaespada DA, Wu TD, de Sauvage FJ。"结肠癌中复发性R-spondin融合"自然488, 660-664, 2012。

Lawrence M, Huber W, Pages H, Aboyoun P, Carlson M, Gentleman R, Morgan MT, Carey VJ。计算和注释基因组范围的软件PLOS计算生物学9, e1003118, 2013。

许博,阿列克谢耶夫,施斯生,唐华,佩夫兹纳。"拼接图和EST组装问题"生物信息学18增刊1,S181-188, 2002。

法雷尔厘米,奥利里NA,哈特RA, Loveland我,Wilming LG,沃林C, Diekhans M,巴雷尔D,塞尔SM, Aken B, Hiatt SM,法兰克,斯诺尔MM,拉其普特人B,管家,布朗GR,班尼特R,墨菲M,吴W,凯MP,哈特J, Rajan J,韦伯J,雪C,雷迪克LD,亨特T,韦伯D,托马斯·M Tamez P, Rangwala SH, McGarvey公里,Pujar年代,Shkeda,玛吉JM,冈萨雷斯JM,吉尔伯特詹,Trevanion SJ, Baertsch R,耙杰,哈伯德T, Ostell JM, Haussler D,普瑞特KD。“共识编码序列数据库的现状和新特性”。核酸研究42(数据库issue): d865 - 72,2014。

1.12会话信息

sessionInfo ()
## R版本3.2.1(2015-06-18)##平台:x86_64-unknown-linux-gnu(64位)##运行在Ubuntu 14.04.2 LTS下## ## locale: ## [1] LC_CTYPE=en_US。UTF-8 LC_NUMERIC= c# # [3] LC_TIME=en_US。UTF-8 LC_COLLATE=C ## [5] LC_MONETARY=en_US.UTF-8 LC_MESSAGES=en_US.UTF-8 ## [7] LC_PAPER=en_US.UTF-8 LC_NAME=C ## [9] LC_ADDRESS=C LC_TELEPHONE=C ## [11] LC_MEASUREMENT=en_US.UTF-8 LC_IDENTIFICATION=C ## ## attached base packages: ## [1] stats4 parallel stats graphics grDevices utils datasets ## [8] methods base ## ## other attached packages: ## [1] XVector_0.9.1 ## [2] TxDb.Hsapiens.UCSC.hg19.knownGene_3.1.3 ## [3] GenomicFeatures_1.21.13 ## [4] AnnotationDbi_1.31.17 ## [5] Biobase_2.29.1 ## [6] SGSeq_1.3.14 ## [7] GenomicRanges_1.21.16 ## [8] GenomeInfoDb_1.5.8 ## [9] IRanges_2.3.14 ## [10] S4Vectors_0.7.10 ## [11] BiocGenerics_0.15.3 ## [12] knitr_1.10.5 ## [13] BiocStyle_1.7.4 ## ## loaded via a namespace (and not attached): ## [1] igraph_1.0.1 magrittr_1.5 ## [3] zlibbioc_1.15.0 GenomicAlignments_1.5.11 ## [5] BiocParallel_1.3.34 stringr_1.0.0 ## [7] tools_3.2.1 SummarizedExperiment_0.3.2 ## [9] DBI_0.3.1 lambda.r_1.1.7 ## [11] futile.logger_1.4.1 htmltools_0.2.6 ## [13] yaml_2.1.13 digest_0.6.8 ## [15] rtracklayer_1.29.12 formatR_1.2 ## [17] futile.options_1.0.0 bitops_1.0-6 ## [19] biomaRt_2.25.1 RCurl_1.95-4.7 ## [21] RSQLite_1.0.0 evaluate_0.7 ## [23] rmarkdown_0.7 stringi_0.5-5 ## [25] Biostrings_2.37.2 Rsamtools_1.21.14 ## [27] XML_3.98-1.3