亚型(也可以互换类和集群)被定义为组织的样品具有不同的分子和临床特征。基因组数据分析发现病人亚型,与临床结果如存活时间,或复发的时间。对临床的角度来说,这是很重要的,因为癌症亚型的识别可以适当的治疗病人。在这里,基因表达谱可以用来找到一个基因与临床变量相关联的列表。基于这样的基因亚型识别。以及基因表达数据,可能需要生存分析来做个比较患者组之间有一定的基因突变和那些没有这种突变。
病人组可以检测到无监督学习算法,如层次聚类。然而,这样的组织识别只使用基因表达数据,但没有任何临床病人的信息。另一方面,通过将病人分成类根据生存信息,生成的类可能不是生物学上有意义的,因为它仅仅是基于临床数据。在这个包中,找到一个基因列表,与生存时间,计算每个基因的单变量Cox比例风险评分并选择顶级基因由考克斯得分排名。识别子组的患者相似的表达谱,聚类算法可以应用在基因或基因的子集选择聚类的变量选择方法。这个包是用来识别的生理和临床相关的有意义的亚型。
通过削减的生存时间中位数生存时间的样品,可以创建两个类,高风险和低风险,只使用临床信息。审查数据,我们可以估计的概率每个审查观察属于“低风险”和“高风险”类,分别。考虑数据与肺癌和卵巢癌在包“生存”。
# #叫:# # survdiff(公式= Surv(时间、状态)~组,data = cbind(测量员数据,## Group)) ## ## N Observed Expected (O-E)^2/E (O-E)^2/V ## Group=High Risk 26 25 2.12 246.3 274 ## Group=Low Risk 202 38 60.88 8.6 274 ## ## Chisq= 274 on 1 degrees of freedom, p= <2e-16
# #叫:# # survdiff(公式= Surv(时间、状态)~组,data = cbind(测量员数据,## Group)) ## ## N Observed Expected (O-E)^2/E (O-E)^2/V ## Group=High Risk 13 13 4.23 18.15 29.2 ## Group=Low Risk 13 13 21.77 3.53 29.2 ## ## Chisq= 29.2 on 1 degrees of freedom, p= 6e-08
基因表达数据,两个子集的病人可以生成基于单个基因的表达水平;,一群由患者的基因表达水平高于选择阈值,和其他小组由剩下的病人。每一个可能的割点被认为是和最小化假定值的价值选择。对于每个子集,单基因和阈值,可以确定最佳分离样品的子集。考虑tumor-biopsy标本的基因表达水平收集从240年DLBCL患者弥漫性large-B-cell淋巴瘤化疗后。样本亚型可以确定使用生存数据和基因表达数据。对于DLBCL数据,有两个亚型。患者中,那些不良预后(N = 105)高表达在1072年调查,5621年,6166年和4574年,但是那些预后良好(N = 135)高表达在调查7357年,4131年和1188年。因此我们能够investgate基因表达和生存之间的关系数据。
DLBCLgenes < -read.csv(“https://doi.org/10.1371/journal.pbio.0020108.sd012”,头=假)DLBCLpatients < -read.csv(“https://doi.org/10.1371/journal.pbio.0020108.sd013”,头=假)colnames(DLBCLpatients) < -c(“时间”,“状态”)rownames(DLBCLpatients) < -colnames(DLBCLgenes)plot.survtype(Single.survgroup(DLBCLpatients时间=“时间”,状态=“状态”,DLBCLgenes [1]),pval =真正的)SE < -SummarizedExperiment(化验=SimpleList(表达=as.matrix(DLBCLgenes)))DLBCL。survtype < -Exprs.survtype(DLBCLpatients时间=“时间”,状态=“状态”,分析(SE),num.genes =50,规模=“行”,基因。选取=真正的,clustering_method =“ward.D2”,show_colnames =假)plot.survtype(DLBCL.survtypepval =真正的)
癌症患者考虑,TCGA LUAD数据阶段。
图书馆(SummarizedExperiment)图书馆(TCGAbiolinks)查询< -GDCquery(项目=“TCGA-LUAD”,数据。category =“基因表达”,数据。类型=“基因表达量化”,平台=“Illumina公司HiSeq”,文件。类型=“normalized_results”,实验。策略=“RNA-Seq”,遗留=真正的)GDCdownload(查询,方法=“api”)数据< -GDCprepare(查询)exprs。LUAD < -分析(数据)#癌症只exprs。LUAD < -exprs.LUAD (,哪一个(字符串的子串(colnames(exprs.LUAD),14,15)= =“01”)]clinic.LUAD<-GDCquery_clinic(“TCGA-LUAD”,“临床”)#舞台我只clinic.LUAD<-clinic.LUAD [clinic.LUAD美元tumor_stage%,%c(“i期”,“舞台ia”,“舞台ib”),)rownames(clinic.LUAD) < -clinic.LUAD (,1]clinic.LUAD<-clinic.LUAD (,c(“days_to_last_follow_up”,“vital_status”)]clinic.LUAD美元vital_status < -ifelse(clinic.LUAD美元vital_status= =“死亡”,1,0)# TCGA匹配IDcolnames(exprs.LUAD) < -字符串的子串(colnames(exprs.LUAD),1,12)#过滤保持< -rowMeans(exprs.LUAD)>500年exprs。LUAD < -exprs.LUAD [,]# log2转换exprs。LUAD < -log2(exprs.LUAD+1)#正常化exprs。LUAD < -quantile_normalization(exprs.LUAD)昏暗的(exprs.LUAD)LUAD.survtype<-Exprs.survtype(clinic.LUAD时间=“days_to_last_follow_up”,状态=“vital_status”exprs.LUAD,num.genes =One hundred.,规模=“行”,基因。选取=假,clustering_method =“ward.D2”,show_colnames =假)情节(LUAD.survtypepval =真正的,面板=c(“# 619 cff”,“# F8766D”))gene.clust(LUAD.survtype2,规模=“行”,clustering_method =“ward.D2”,show_colnames =假)# VEGFAVEGFA。survgroup < -Single.survgroup(LUAD.survtype美元surv.data,时间=“days_to_last_follow_up”,状态=“vital_status”,LUAD.survtype美元exprs.data [“VEGFA”),group.names =c(“高表达”,“低表达”))情节(VEGFA.survgrouptitle =“VEGFA”,pval =真正的)
考虑TCGA LAML突变数据队列在包“maftools”。两组或者wthout的错义突变基因DNMT3A最明显不同的生存。对DNMT3A突变患者预后不良。自分布突变组显示了明显不同的存活曲线non-mutation集团,我们可能会选择治疗的两组不同的策略。
图书馆(maftools)laml。加< -执行(“extdata”,“tcga_laml.maf.gz”,包=“maftools”,mustWork =真正的)laml。clin <-执行(“extdata”,“tcga_laml_annot.tsv”,包=“maftools”,mustWork =真正的)laml。加< -read.csv(laml.maf9月=”\ t”)laml.clinical。数据< -read.csv(laml.clin9月=”\ t”,row.names =1)指数< -哪一个(laml.clinical.data美元days_to_last_followup= =- - - - - -正)laml.clinical。数据< -laml.clinical.data [- - - - - -指数)laml.clinical。数据< -data.frame(laml.clinical.data)laml。survgroup < -MAF.survgroup(laml.clinical.data时间=“days_to_last_followup”,状态=“Overall_Survival_Status”laml.maf,变量=“Missense_Mutation”,num.genes =10,上面。基因=1,pval =真正的)
# # num.samples.with。chisq变体。stat p。值35 # # DNMT3A NPM1 1 14.1666667 0.0001673084 17.8550886 - 0.0000238381 # # # # TP53 10 9.7655139 - 0.0017781581 # # FLT3 15 2.2742381 - 0.1315397534 3.1355832 - 0.0766009872 # # RUNX1 7 # # TET2 4 0.7644177 - 0.3819495256
拜尔,E。,& Tibshirani, R. (2004). Semi-supervised methods to predict patient survival from gene expression data. PLoS biology, 2(4), e108.
Emmert-Streib, f (2012)。统计诊断为癌症:分析高维数据。约翰威利和儿子。
胡,X。,& Pan, Y. (2007). Knowledge discovery in bioinformatics: techniques, methods, and applications. John Wiley & Sons.
Le Van Thanh, et al。(2016)。同时发现癌症亚型和亚型分子数据集成功能。生物信息学,32 (17),i445-i454。
李,J。,& Ma, S. (2013). Survival analysis in medicine and genetics. CRC Press.
罗森沃尔德,安德烈亚斯,et al。(2002)。使用分子分析预测扩散large-B-cell淋巴瘤化疗后的生存。新英格兰医学杂志》,346 (25),1937 - 1947。
罗伊斯顿,P。,& Sauerbrei, W. (2008). Multivariable model-building: a pragmatic approach to regression anaylsis based on fractional polynomials for modelling continuous variables. John Wiley & Sons.
西蒙,r . M。,Korn, E. L., McShane, L. M., Radmacher, M. D., Wright, G. W., & Zhao, Y. (2003). Design and analysis of DNA microarray investigations. Springer.