为了评估常微分方程建模设置的置信度,引入了廓形似然的概念(劳伊等,2009).在YAPSA中,这一概念适用于突变特征暴露的置信区间(ci)的计算(亚历山德罗夫等人(2013)).为了确定高维向量中计算出的单个值的CI,对该值进行扰动,并再次计算该向量的其余值,从而得到一个比初始模型少一个自由度的替代数据模型。然后,根据初始模型和备选模型的残差分布计算对数似然,并计算似然比检验。
在突变签名的上下文中,这对应于一个给定突变签名暴露的CI的确定。为此,对该暴露值进行扰动,即:\ (H_{紫外线}\),曝光签名\ (u \)在示例\ \ (v),改变了一个很小的值\(H_{uv} \右tarrow H_{uv} + \epsilon_{uv}\),其余签名的曝光再次计算非负最小二乘,产生一个比初始模型少一个自由度的替代数据模型。然后,如前所述,根据初始模型和备选模型的残差分布计算对数似然,并计算似然比检验。这就产生了一个摄动的p值,这个p值可能需要用高斯-牛顿法外推才能得到95%的ci。
在下一节中,我们简要概括了在示例数据集上执行的SNV突变签名的分析1.YAPSA的使用.因此,我们首先加载存储在包中的示例数据:
data(sigs) data(cutoffs) data("lymphomaNature2013_mutCat_df") current_cutoff_vector <- cutoffCosmicValid_abs_df[6,]
然后,我们使用SNV突变签名进行监督分析signature-specific达标:
lymphoma_COSMIC_listsList <- LCD_complex_cutoff_combined(in_mutation_cataloggue_df = lymphomaNature2013_mutCat_df, in_cutoff_vector = current_cutoff_vector, in_signatures_df = AlexCosmicValid_sig_df, in_sig_ind_df = AlexCosmicValid_sigInd_df)
我们为不同的样本分配子组:
data(lymphooma_pid) colnames(lymphooma_pid_df) <- "SUBGROUP" lymphooma_pid_df $PID <- rownames(lymphooma_pid_df) COSMIC_subgroups_df <- make_subgroups_df(lymphooma_pid_df, lymphooma_cosmic_listslist $cohort$exposures)
最后绘制得到的结果:
exposures_barplot(in_exposures_df = lymphoma_COSMIC_listsList$cohort$exposures, in_signatures_ind_df = lymphoma_COSMIC_listsList$cohort$out_sig_ind_df, in_subgroups_df = COSMIC_subgroups_df)
为了评估计算曝光的可信度,YAPSA提供了ci的计算。类似于SNV突变签名的ci, Indel突变签名的ci是使用轮廓似然的概念计算的。这是由函数执行的variateExp ()
.
complete_df <- variateExp(in_cataloggue_df = lymphomaNature2013_mutCat_df, in_sig_df = lymphoma_COSMIC_listsList$cohort$signatures, in_exposures_df = lymphoma_COSMIC_listsList$cohort$exposures, in_sigLevel = 0.025, in_delta = 0.4)
值得注意的是,相对于输出的液晶显示器
函数族,函数的结果variateExp ()
数据帧是否在长格式,因为对于签名和样本的每个组合,现在必须存储几个值:
头(complete_df, 12)
## 1 AC1 4101316 72.675768 -0.43106098 2.374512 -31.327688 172.56949 ## 2 AC2 4101316 74.489434 0.34878710 1.680106 25.980954 125.15014 ## 3 AC5 4101316 1753.476803 0.77488620 1.152261 1358.744975 2020.46228 ## 4 AC9 4101316 255.812357 -0.07894218 1.995232 -20.194385 510.40496 ## 5 AC13 4101316 0.000000 0.00000000 0.000000 0.000000 0.000000 0.000000 0.000000 0.000000 0.694443 185.14718 ## 7 AC1 4105105 620.579640 0.808017181.100735 501.439012 683.09381 ## 8 AC2 4105105 62.117385 0.34583451 1.768123 21.482335 109.83116 ## 9 AC5 4105105 1538.699883 0.62467887 1.032297 961.193310 1588.39561 ## 10 AC9 4105105 1171.315692 0.91125235 1.316790 1067.364176 1542.37690 ## 11 AC13 4105105 6.287399 -7.75516430 7.314664 -48.759815 45.99022 ## 12 AC17 4105105 0.000000 0.00000000 0.000000 0.000000 0.00000
这一列曝光
包含以前计算过的值。的习题答案relLower
而且relUpper
包含与曝光相乘的因子,以得到95% ci的下限和上限。这些下界和上界的绝对值存储在列中较低的
而且上
.
还有一个自定义函数来绘制具有置信区间的曝光:
plotexposureconfidence (in_complete_df = complete_df, in_subgroups_df = COSMIC_subgroups_df, in_sigInd_df = lymphoma_COSMIC_listsList$cohort$out_sig_ind_df)
这将产生一个类似于上面获得的曝光显示的图形,但与之前通过堆叠柱状图显示签名曝光的方法相反,这里我们选择了一个以签名为行的facet图,以便能够显示ci(表示为晶须)。我们还想进一步强调,如果样本中不存在签名,即该签名的暴露为0,则置信区间的上界和下界也为0。
值得注意的是,为签名暴露计算95% ci的功能也可用于Indel突变签名的分析,在相应的装饰图案.
Alexandrov, LB, S Nik-Zainal, DC Wedge, SA Aparicio, S Behjati, AV Biankin, GR Bignell,等。2013。"癌症突变过程的特征"自然.自然出版集团。
Raue, Andreas, C. Kreutz, T. Maiwald, J. Bachmann, M. Schilling, U. Klingmüller,和J. Timmer. 2009。利用剖面似然分析部分观测动态模型的结构和实际可识别性。“利用剖面似然分析部分观测动态模型的结构和实际可识别性。”生物信息学.