内容

1简介

全球范围内正在启动越来越多的精准肿瘤学项目。为了支持这一开发,我们提出了Cancer Variant Explorer (CVE),这是一个带有交互式Shiny界面的R包。利用Oncotator注释和药物基因相互作用数据库,CVE优先选择变体以识别驱动因素、耐药机制和可药性。我们鼓励通过额外的模块扩展CVE以进行更量身定制的分析,并提供了第一个CVE扩展,增加了对黑色素瘤特异性共表达网络中的变异基因的探索。本教程的目标是展示CVE包的功能。

2安装

CVE可以通过Bioconductor安装

源(“//www.anjoumacpherson.com/biocLite.R”)biocLite (CVE)

一旦安装加载

库(CVE)

3.单例病例研究

下载单个结直肠癌患者的变异信息RTCGAToolbox包中。

#加载所有结直肠癌数据crcData = getFirehoseData(dataset="COAD", Clinic=TRUE, Mutation=TRUE, runDate="20160128")
#选择单个患者进行病例研究crcCase_Firehouse = crcData@Mutations[crcData@Mutations$Tumor_Sample_Barcode=="TCGA-AA-A00N-01A-02W-A00E-09",]

结肠腺癌样本含有4709个变异。CVE需要包含染色体列、起始列、结束列、参考等位基因列和观察等位基因列的数据帧。

crcCase_input = data.frame(chr=crcCase_Firehouse$染色体,start=crcCase_Firehouse$Start_position, end=crcCase_Firehouse$End_position, reference_allele=crcCase_Firehouse$ reference_allele, observed_allele=crcCase_Firehouse$Tumor_Seq_Allele2) head(crcCase_input)
## chr开始结束reference_allele observed_allele ## 110 100894110 100894110 T G ## # 2 10 100985376 100985376 C A ## 3 10 101137905 101137905 G A ## 4 10 101429058 101445832 101445832 G A ## 6 10 101479316 101479316 G T

4使用Oncotator注释变量

下面的函数通过应用程序编程接口检索Oncotator注释(这一步需要internet连接)。Oncotator Variant Annotation工具从14个不同的与癌症研究人员相关的公开资源中总结了以变量为中心的信息1.有关更多信息,请参见Oncotator网页

library(jsonlite) crcCase = get. oncotor .anno(crcCase_input)

5打开Shiny应用程序

这个函数openCVE打开CVE Shiny应用程序。它需要作为数据帧或多个MAF文件列表的Oncotator输出文件(MAF文件)。单例结肠腺癌患者的病例研究可以承载

openCVE (crcCase)

6CVE功能

CVE Shiny应用程序的核心实现提供了四个不同的选项卡来探索变体。

6.1注释

注释选项卡的第一部分总结了来自GENCODE的功能结果注释,包括变体的分类(例如,误解,废话,帧转移等)。CVE的左侧面板提供了一个过滤器,也包括非snv进一步的优先级。底部显示了dbNSFP数据库中突变效应预测算法的聚类热图2对于数据集。该算法主要利用的推理是,由于更严格的进化约束(即基于保守的算法)或氨基酸不同的物理化学性质和相应的三维蛋白质结构(即功能预测算法),更有害的基因区域在物种间观察到的替代更少。此外,还开发了结合不同方法的综合评分(例如CADD)。有关各个算法的详细信息,请参见。值得注意的是,CVE既没有对函数预测算法的分数进行基准测试,也没有试图获得最好的分数。相反,它根据18种算法的排名分数显示了预测的异构性。排名分数在0到1之间,其中1表示在87,347,043个非同义单核苷酸变体中排名最高。CVE通过共识聚类得到的共识指数的热图来描述变量排名得分相似的算法。基于热图,用户可以选择一个与所选算法聚类信息相似的单一预测算法。此外,对于不熟悉单个算法前景的用户,我们建议使用dbNSFP组合评分\ (c \)

\ [c = \ sum_ {j = 1} ^ {m} y_j \ qquad \文本{和}\ qquad y_j ={病例}\ \开始眉题{间{ij}}和{如果}\四\ \文本眉题{间{ij}} \ 0.75 \ \组0 & \文本{如果}\四\眉题{间{ij}} < 0.75 \{病例}结束\]

在哪里\(间{ij} \)算法的排名是多少我\ \ ()在集群\ (j \)而且\(\眉题{间{ij}} \)算法簇的平均排序得分\ (j \)\(\眉题{间{ij}} \)只会被添加到\ (c \)如果在算法聚类中存在显著的变异证据\ (j \),由属于排名分数上四分位的平均排名分数定义。

6.2优先级

根据科学问题,有必要对变异进行或多或少的限制性优先排序。一项旨在提出靶向治疗方案的研究可能只对外显子组数据集中最有希望的可药物变体感兴趣。相反,对于靶向测序,10-100个变异是一个可行的数字,用于监测疾病过程中的关键基因组变化(例如分析循环细胞游离肿瘤DNA, ctDNA)。因此,CVE提供了关键滤波器和截止的即时和灵活的修改。优先级排序工作流的核心是功能预测算法的选择。左侧边栏面板中的交互式滑块可用于修改截止日期。除了dbNSFP数据之外,Oncotator注释还包括用于优先级的进一步信息。我们建议

Wood等人总结的已知DNA修复基因的变异。3.显示,也可以通过应用另一个筛选器来包含。

6.3上座

可以在top table选项卡中访问优先变量表。为了方便数据处理,还可以使用侧边栏中的下载按钮将这个顶表下载为标签分开的电子表格。顶层表的列总结如下:

为了重现性,顶部表的标题包括所有选择的过滤器,以确定变量的优先级。

6.4Druggability

在工作流的这一点上,变量被注释,排名和优先级。因此,我们留下了少数几个可能对个体肿瘤生物学至关重要的变异。指导精准癌症医学的下一步是评估候选变异的可药性。

最新的药物-基因相互作用数据库(DGIdb)4提供最全面的药物-基因相互作用的集合。在DGIdb中,CVE只查询TEND和My Cancer Genome信息,因为这两个来源都是专家策划的,并且包含多种肿瘤类型。CVE通过API (application programming interface)访问DGIdb数据。这样,就不需要在本地安装数据库,并且条目会自动更新。可以在数据表中探索发现的相互作用,该数据表也可以作为CVE侧面板中的csv文件下载。

6.5案例总结

CVE揭示了单发结直肠癌的以下几点:

7黑色素瘤队列病例研究和WGCNA扩展

CVE也可应用于队列变异数据。作为一个有意义的队列,我们选择了BRAF-wt/RAS-wt黑素瘤,因为它们在转移环境中既不能成为BRAF或MEK抑制剂的靶标。我们从癌症基因组图谱中收集了案例研究5.345例患者中有93例可分为BRAF-wt/RAS-wt。CVE核心实现中的四个选项卡可以应用于所有肿瘤实体。为了说明开源R代码的功能性和灵活性,我们开发了第一个扩展,以探索在黑色素瘤特定通路环境中感兴趣的变异基因。为此,我们使用WGCNA方法从TCGA数据中生成了一个黑色素瘤特异性共表达网络WGCNA_from_TCGA_RNAseq).开始黑色素瘤队列研究的扩展:

openCVE (melanomaCase、扩展=“WGCNAmelanoma”)

8会话信息

sessionInfo ()
## R版本3.4.0(2017-04-21)##平台:x86_64-pc-linux-gnu(64位)##运行在Ubuntu 16.04.2 LTS下## ##矩阵产品:默认## BLAS: /home/biocbuild/bbs-3.5-bioc/R/lib/libRblas。所以## LAPACK: /home/biocbuild/bbs-3.5-bioc/R/lib/libRlapack。所以## ## locale: ## [1] LC_CTYPE=en_US。UTF-8 LC_NUMERIC= c# # [3] LC_TIME=en_US。UTF-8 LC_COLLATE= c# # [5] LC_MONETARY=en_US。utf - 8 LC_MESSAGES = en_US。UTF-8 ## [7] LC_PAPER=en_US。UTF-8 LC_NAME= c# # [9] LC_ADDRESS=C lc_phone = c# # [11] LC_MEASUREMENT=en_US。UTF-8 LC_IDENTIFICATION=C ## ##附加的基本包:## [1]stats graphics grDevices utils datasets methods基础## ##其他附加包:## [1]RTCGAToolbox_2.6.0 BiocStyle_2.4.0 ## ##通过命名空间加载(且未附加):## [1] Rcpp_0.12.10 knitr_1.15.1 magrittr_1. 1.5 ## [4] splines_3.4.0 lattice_0.20-35 string_1 .2.0 ## [7] tools_3.4.0 grid_3.4.0 data.table_1.10.4 ## [10] htmltools_0.3.5 yaml_2.1.14 survival_2.41-3 ## [13] rprojroot_1.2 digest_0.6.12 rjsonio_1 . 1.3-0 ## [16] Matrix_1.2-9 bitops_1.0-6 RCurl_1.95-4.8 ## [19] evaluate_0.10 rmarkdown_1.4 limma_3.32.0 ## [25] stringi_1.1.5 compiler_3.4.0 RCircos_1.2.0 ## [25] backports_1.0.5 xml_3 . 1.6

9参考文献


  1. Ramos, a.h., Lichtenstein, L., Gupta, M., Lawrence, m.s., Pugh, t.j., Saksena, G., Meyerson, M., Getz, G.:致癌剂:癌症变体注释工具。人类基因突变36(4),2423-2429 (2015)

  2. 刘X,简X, & Boerwinkle, E.(2013)。dbNSFP v2.0:人类非同义snv及其功能预测和注释的数据库。中国生物工程学报,34(9),344 - 344。http://doi.org/10.1002/humu.22376

  3. 伍德,R. D.,米切尔,M.和林达尔,T.(2005)。人类DNA修复基因,2005年。中国生物工程学报,37(1):344 - 344。

  4. 格里菲斯,M.,格里夫斯,O. L.,科夫曼,A. C.,韦布尔,J. V.,麦克迈克尔,J. F., Spies, N. C.,科瓦尔,J.,达斯,I.,卡拉威,M. B.,埃尔德雷德,J. M.等(2013)。DGIdb:挖掘可药物基因组。自然科学方法,10(12):1209-1210。

  5. 癌症基因组图谱网络。(2015)。皮肤黑色素瘤的基因组分类。细胞,161(7),1681-1696。http://doi.org/10.1016/j.cell.2015.05.044