1蛋白质注释概述

在这个小插图中,我们描述了一个微波激射器受剪接影响的蛋白质特征的注释和可视化工作流。

将蛋白质特征整合到剪接事件中,可以揭示选择性剪接对蛋白质功能的影响。我们开发了微波激射器使系统映射的蛋白质注释从UniprotKB到剪接事件。

蛋白质特征可以与受剪接事件影响的转录本一起被注释和可视化。这样,微波激射器可以识别剪接是否影响包含已知结构域或基序、突变、翻译后修饰和其他描述的蛋白质结构特征的感兴趣区域。

2蛋白质特征的标注

2.1创建maser对象

我们使用前一个小插图中的缺氧数据集来说明工作流程。

使用低氧数据集路径<- system. library(maser) library(rtracklayer) #创建maser对象file("extdata", file.path("MATS_output"), package = "maser") hypoxia <- maser(path, c(" hypoxia 0h", " hypoxia 24h")) #删除低覆盖事件hypoxi_filt <- filterByCoverage(hypoxia, avg_reads = 5)

2.2在Uniprot上查询可用的蛋白质特性

可用的UniprotKB蛋白质注释可以使用availableFeaturesUniprotKB ().目前有30个不同的特征被分为更广泛的类别,包括结构域和位点,PTM(翻译后修饰),分子加工,拓扑,突变和结构特征

的名字 描述 类别
Ca-binding 钙结合位点序列注释 Domain_and_Sites
DNA-bind UniProtKB DNA结合位点序列注释 Domain_and_Sites
NP绑定 核苷酸磷酸盐结合序列注释 Domain_and_Sites
Zn-fing 锌指序列注释 Domain_and_Sites
act-site UniProtKB活动站点序列注释 Domain_and_Sites
绑定 UniProtKB绑定站点序列注释 Domain_and_Sites
UniProtKB线圈序列注释 Domain_and_Sites
UniProtKB域序列注释 Domain_and_Sites
金属 UniProtKB金属离子结合位点序列注释 Domain_and_Sites
主题 兴趣序列注释的UniProtKB motif Domain_and_Sites

2.3注释步骤

剪接事件的蛋白质特征注释分两步进行。

  1. 使用mapTranscriptsToEvents ()将转录本和蛋白质id添加到maser对象中的所有事件中。
  2. 使用mapProteinFeaturesToEvents ()用于指定UniprotKB特性或类别的注释。

mapTranscriptsToEvents ()通过在Ensembl GTF中提供的基因模型中参与剪接的重叠外显子来识别与剪接事件兼容的转录本。每种类型的拼接事件应用一个特定的重叠规则(在介绍部分描述)。如果可用,该函数还将转录本映射到Uniprot中相应的蛋白质标识符。

mapTranscriptsToEvents ()需要使用人类基因组hg38构建的Ensembl或Gencode GTF。集成gtf可以使用AnnotationHub或使用import.gff ()rtracklayer包中。有几个可用的GTF发行版微波激射器与使用hg38构建的任何版本兼容。

我们使用从Ensembl Release 85中提取的简化GTF来运行示例。

## Ensembl GTF注释gtf_path <- system。file("extdata", file.path("GTF","Ensembl85_examples.gtf.gz"), package = "maser") ens_gtf <- rtracklayer::import.gff(gtf_path)

第二步,mapProteinFeaturesToEvents ()从UniprotKB检索数据,并将剪接事件与蛋白质特征的基因组坐标重叠。

2.4SRSF6例子

剪接因子SRSF6在缺氧时通过表达替代外显子进行剪接。我们将用域、站点和拓扑信息注释外显子跳过事件。第一步是获取包含SRSF6剪接信息的maser对象,然后将转录本映射到剪接事件。

#检索基因特定拼接事件srsf6_events <- geneEvents(hypoxia_filt, "SRSF6") srsf6_events #>一个带有一个拼接事件的Maser对象。#> #>样本说明:#>标签=缺氧0h n=3个重复#>标签=缺氧24h n=3个重复#> #>拼接事件:#> A3SS..........0事件#> A5SS..........0事件#> SE..........1事件#> RI..........0事件#> MXE..........0事件
#将转录本映射到拼接事件srsf6_mapped <- mapTranscriptsToEvents(srsf6_events, ens_gtf)

如果转录映射正常工作,则Ensembl和Uniprot标识符将被添加到拼接事件中。可能的NAValues表示非蛋白质编码转录本。在本例中,剪接涉及SRSF6 Q13247亚型的两个Ensembl转录本。

(注释(srsf6_mapped SE))
ID GeneID geneSymbol txn_3exons txn_2exons list_ptn_a list_ptn_b
33209 ENSG00000124193.14 SRSF6 ENST00000483871 ENST00000244020 Q13247 Q13247

现在我们准备调用mapProteinFeaturesToEvents ()注释。特征注释可以交互式地显示在web浏览器中使用显示()或检索为data.frame使用注释()

mapProteinFeaturesToEvents ()将添加额外的列,描述已分配注释的特征名称、特征描述和蛋白质标识符。可能的NA值指示未为拼接事件注释特定特性。

srsf6_annot <- mapProteinFeaturesToEvents(srsf6_mapped, c("Domain_and_Sites", "Topology"), by="category")
(注释(srsf6_annot SE))
ID GeneID geneSymbol txn_3exons txn_2exons list_ptn_a list_ptn_b Ca-binding DNA-bind NP绑定 Zn-fing act-site 绑定 金属 主题 地区 重复 网站 intramem topo-dom transmem
33209 ENSG00000124193.14 SRSF6 ENST00000483871 ENST00000244020 Q13247 Q13247 NA NA NA NA NA NA NA Q13247: M1-G72; RRM1 A0A590UJK4: P2-G72; RRM, A0A590UJP7: P2-G72; RRM, A0A590UK01: P2-G72; RRM, A0A590UK80: X1-G66; RRM, A0A590UJK4: Y110-P183; RRM, A0A590UJP7: Y110-P183; RRM, A0A590UK01: Y110-P183; RRM, Q13247: Y110-P183; RRM2, A0A590UK80: Y104-P177; RRM NA NA A0A590UJK4: R75-G103;无序,A0A590UJP7: R75-G103;无序,A0A590UK01: R75-G103;无序,Q13247: R75-G103;无序,A0A590UK80: R69-G97;无序 NA NA NA NA NA

通过检查结果,我们看到SRSF6外显子跳过事件是用Uniprot特性标注的域,链和mod-res (modidifed残基).可视化的剪接事件,转录本和蛋白质的特征是执行plotUniprotKBFeatures ().在本例中,剪接事件中的外显子与蛋白质的富含丝氨酸/精氨酸剪接因子6区域重叠,而上游外显子和下游外显子则分别与SRSF6的RRM1和RRM2结构域重叠。

#情节拼接事件,转录本和蛋白质特征plotUniprotKBFeatures(srsf6_mapped, "SE", event_id = 33209, gtf = ens_gtf, features = c("domain", "chain"), show_transcripts = TRUE)

2.5RIPK2例子

RIPK2在缺氧数据集中有一个外显子跳过事件。按照上面的例子,我们将转录本映射到剪接事件,并注释重叠剪接事件的蛋白质特征。我们发现替代外显子与蛋白的激酶结构域重叠,因此可能在缺氧时改变了该结构域的结构。ATP和质子受体结合位点是重叠的外显子两侧的替代外显子。

ripk2_events <- geneEvents(hypoxia_filt, "RIPK2") ripk2_mapped <- mapTranscriptsToEvents(ripk2_events, ens_gtf) ripk2_annot <- mapProteinFeaturesToEvents(ripk2_mapped, tracks = c("Domain_and_Sites"), by = "category")
plotUniprotKBFeatures(ripk2_annot, type = "SE", event_id = 14319, features = c("domain", "binding", "act-site"), gtf = ens_gtf, zoom = FALSE, show_transcripts = TRUE)

3.会话信息

这是的输出sessionInfo ()在编译本文件的系统上:

#> R version 4.2.0 RC (2022-04-19 r82224) #>平台:x86_64-pc-linux-gnu (64-bit) #>运行在:Ubuntu 20.04.4 LTS #> #>矩阵产品:默认#> BLAS: /home/biocbuild/bbs-3.15-bioc/R/lib/libRblas。所以#> LAPACK: /home/biocbuild/bbs-3.15-bioc/R/lib/libRlapack。so #> #> locale: #> [1] LC_CTYPE=en_US。UTF-8 LC_NUMERIC= c# > [3] LC_TIME=en_GB LC_COLLATE= c# > [5] LC_MONETARY=en_US。utf - 8 LC_MESSAGES = en_US。UTF-8 #> [7] LC_PAPER=en_US。UTF-8 LC_NAME= c# > [9] LC_ADDRESS=C LC_TELEPHONE= c# > [11] LC_MEASUREMENT=en_US。UTF-8 LC_IDENTIFICATION= c# > #>附加基础包:#> [1]stats4 stats graphics grDevices utils datasets methods #> [8] base #> #>其他附加包:#> [1]rtracklayer_1.56 6.0 maser_1.14.0 GenomicRanges_1.48.0 #> [1] GenomeInfoDb_1.32.0 IRanges_2.30.0 S4Vectors_0.34.0 #> [7] BiocGenerics_0.42.0 ggplot2_3.3.5 BiocStyle_2.24.0 #> #>通过命名空间加载(且未附加):# > [1] colorspace_2.0-3 rjson_0.2.21 # > [3] ellipsis_0.3.2 biovizBase_1.44.0 # > [5] htmlTable_2.4.0 XVector_0.36.0 # > [7] base64enc_0.1-3 dichromat_2.0-0 # > [9] rstudioapi_0.13 farver_2.1.0 # > [11] DT_0.22 bit64_4.0.5 # > [13] AnnotationDbi_1.58.0 fansi_1.0.3 # > [15] xml2_1.3.3 splines_4.2.0 # > [17] cachem_1.0.6 knitr_1.38 # > [19] Formula_1.2-4 jsonlite_1.8.0 # > [21] Rsamtools_2.12.0 cluster_2.1.3 # > [23] dbplyr_2.1.1 png_0.1-7 # > [25] BiocManager_1.30.17 compiler_4.2.0 # > [27] httr_1.4.2backports_1.4.1 # > [29] lazyeval_0.2.2 assertthat_0.2.1 # > [31] Matrix_1.4-1 fastmap_1.1.0 # > [33] cli_3.3.0 htmltools_0.5.2 # > [35] prettyunits_1.1.1 tools_4.2.0 # > [37] gtable_0.3.0 glue_1.6.2 # > [39] GenomeInfoDbData_1.2.8 reshape2_1.4.4 # > [41] dplyr_1.0.8 rappdirs_0.3.3 # > [43] Rcpp_1.0.8.3 Biobase_2.56.0 # > [45] jquerylib_0.1.4 vctrs_0.4.1 # > [47] Biostrings_2.64.0 crosstalk_1.2.0 # > [49] xfun_0.30 stringr_1.4.0 # > [51] lifecycle_1.0.1 ensembldb_2.20.0 # > [53] restfulr_0.0.13 xml_3.99 - 0.9# b> [55] zlibbioc_1.42.0 VariantAnnotation_1.42.0 #> [59] ProtGenerics_1.28.0 hms_1.1.1 #> [61] MatrixGenerics_1.8.0 parallel_4.2.0 #> [63] SummarizedExperiment_1.26.0 AnnotationFilter_1.20.0 #> [65] RColorBrewer_1.1-3 yaml_2.3.5 #> [67] curl_4.3.2 memoise_2.0.1 #> [69] gridExtra_2.3 sass_4.4.1 #> [71] biomaRt_2.52.0 rpart_4.1.16 #> [75] RSQLite_2.2.12 highr_0.9 #> [79] BiocIO_1.6.0 checkmate_2.1.0 #> [79]GenomicFeatures_1.48.0 filelock_1.0.2 # > [81] BiocParallel_1.30.0 rlang_1.0.2 # > [83] pkgconfig_2.0.3 matrixStats_0.62.0 # > [85] bitops_1.0-7 evaluate_0.15 # > [87] lattice_0.20-45 purrr_0.3.4 # > [89] labeling_0.4.2 GenomicAlignments_1.32.0 # > [91] htmlwidgets_1.5.4 bit_4.0.4 # > [93] tidyselect_1.1.2 plyr_1.8.7 # > [95] magrittr_2.0.3 bookdown_0.26 # > [97] R6_2.5.1 magick_2.7.3 # > [99] generics_0.1.2 Hmisc_4.7-0 # > [101] DelayedArray_0.22.0 DBI_1.1.2 # > [103] pillar_1.7.0 foreign_0.8 - 82 # > [105]withr_2.5.0 survival_3.3-1 #> [107] KEGGREST_1.36.0 RCurl_1.98-1.6 #> [109] nnet_7.3-17 tibble_3.1.6 #> [111] crayon_1.5.1 utf8_1.2.2 #> [113] BiocFileCache_2.4.0 rmarkdown_2.14 #> [115] jpeg_0.1-9 progress_1.2.2 #> [117] grid_4.2.0 data.table_1.14.2 #> [119] blob_1.2.3 digest_0.6.29 #> [121] munsell_40.0 #> [123] bslib_0.3.1