病毒准物种是理解为一组密切相关的病毒基因组由病毒复制保真度较低。复制RNA病毒显示高错误率由于缺乏校对机制。据估计,与一般病毒复制的负荷高,每一个可能的点突变和生成许多双突变病毒复制周期,这些随时可能出现在人口。鉴于这种固有的动态,我们会比较感兴趣的病毒序列样本之间多样性指数之间的一个病人或样本组的患者。这些比较可以提供病人的临床进展信息或给定适当的治疗。
QSUtils包用于使用准物种扩增子数据获得的门店,但它也可以用于分析16 s / 18 s ribosomal-based宏基因组扩增子或肿瘤遗传多样性。
在本教程中,我们说明包中提供的功能可以用来模拟准物种数据。这意味着模拟基因密切相关,与隔离种群遗传距离更高(最终)及其丰度。
特别是,我们可以区分急性和慢性感染资料的准物种组成。急性感染料显示突出的基因组是非常丰富的,连同一套low-abundance基因组。另一方面,除了隐式动力学,慢性感染预计将显示数量的相对丰富的基因组与无数的派生的基因组在低丰度很低。
基因组的病毒来说,健身是衡量其复制的性能。高适应性单显示瞬态后丰度高,在此期间他们克服其他准物种的基因组。在人类宿主的感染,准物种通常显示每个基因组的适应性变化由bioenvironment的变化引起的。因为这个动态的,我们可以观察到典型的急性感染的档案也在慢性病人,至少在当前门店提供的放大技术水平。
一些功能在包被设计用来模拟准物种组成,目的是研究多样性指数的统计特性(Gregori et al . 2016年)(Gregori et al . 2014年)。
BiocManager::安装(“QSutils”)
# #警告:包(s)时没有安装版本(s)与当前相同;使用“力= TRUE”# #安装:“QSutils”
库(QSutils)
两种不同类型的信息定义准物种组成:基因组现在和他们目前的频率(丰度)病毒。包提供了三种方式来模拟丰富各种减少配置文件。
\ (fn.ab \)设置的参数\ (fn \)来\ (pf \)连续计算分数,考虑到最丰富的单体型频率,根据:
\ [h ~ r ^{(张)},~ ~ r < 1, ~ ~我= 1 . . n \]使用\ \(表)在\ (fn.ab \)因此,我们获得的数量为每个频率单:
表(fn.ab(25日fn =“pf”))
# # # # 1 2 4 9 19 39 78 156 312 625 1250 2500 5000 # # 12 1 1 1 1 1 1 1 1 1 1 1 1 # # 10000 # # 1
票面价值(mfrow = c(1、2)情节(fn.ab(25日fn =“pf”),类型=“h”)情节(fn.ab (r = 0.7, fn =“pf”),类型=“h”)
的默认值\ (r \)是0.5。更高的\ (r \)温和的丰度的减少值。默认情况下,最丰富的单体型的频率,\ \ (h),是10000。
\ (fn.ab \)与参数\ (fn = \“色散”)计算的力量连续分数,根据:
\ [h ~ \压裂{1}{我^ {r}}, ~ ~ r > 0, ~ ~我= 1 . . n \]默认值是0.5\ (r \)和10000年\ \ (h)。越高\ (r \),频率下降越明显。
表(fn.ab (25, r = 3, fn =“色散”))
# # # # 1 2 3 4 5 7 10 13 80年19日29日46 156 # # 8 3 1 1 1 1 1 1 1 1 1 1 1 # # 370 1250 10000 # # 1 1 1
表(fn.ab (25, r = 2, fn =“色散”))
# # # # 16 17 18 20 22 25 27 30 34 39 44 51 59 # # 1 1 1 1 1 1 1 1 1 1 1 1 1 # # 69 82 100 123 156 204 277 400 625 1111 2500 10000 # # 1 1 1 1 1 1 1 1 1 1 1 1
票面价值(mfrow = c(1、2)情节(fn.ab (25 r = 3 fn =“色散”),类型=“h”)情节(fn.ab (25, r = 2, fn =“色散”),类型=“h”)
\ (fn.ab \)与\ (fn = " dfp " \)计算最大频率的下降的根源,\ \ (h)根据:
\ [h ^{1 /我},~ ~我= 1 . . n \]
表(fn.ab(25日fn =“dfp”))
# # # # 1 2 3 4 6 10 21 100 10000 # # 12 5 2 1 1 1 1 1 1
票面价值(mfrow = c(1、2)情节(fn.ab(25日fn =“dfp”),类型=“h”)
图和前面的表都显示这个函数是产生最大的占主导地位的单体型和其他人之间的距离。
比较这三个功能的配置文件,这图块的输出函数使用默认参数。
{rplot-fn3.2,无花果。帽= "比较数据的模拟功能"}par (mfrow = c(1、3)情节(fn.ab(25日fn =“pf”),类型=“h”,主要= " fn。ab - pf)图(fn.ab (25 r = 3 fn =“色散”),类型=“h”,主要= " fn。ab - pcf)情节(fn.ab(25日fn =“dfp”),类型=“h”,主要= " fn。ab - dpf”)
的一个线性组合的结果三个函数提供了更大的灵活性。
ab < - 0.25 * fn.ab(25日fn =“pf”) + 0.75 * fn.ab (25 r = 3 fn =“色散”)表(ab)
ab # # # # 1 1.75 2.5 3.5 4.75 7.5 12.25 19.5 33.75 60.75 112.5 # # 8 3 1 1 1 1 1 1 1 1 1 # # 216.25 429.5 902.5 2187.5 10000 # # 1 1 1 1 1
情节(ab、类型=“h”,主要=“结果”的线性组合)
ab < - 0.7 * fn.ab(25日fn =“pf”) + 0.3 * fn.ab(25日fn =“dfp”)表(ab)
ab # # # # 1 3.4 6.9 13.9 27.9 55.5 110.1 219.6 439.3 878 # # 12 1 1 1 1 1 1 1 1 1 1 # # 1756.3 3530 10000 # # 1 1 1
情节(ab、类型=“h”,主要=“结果”的线性组合)
适合在我们的实验观察到罕见的单体型的典型负载与丙肝病毒前准物种丰度过滤器。即大量的健身很低或有缺陷的单是最好的模拟的几何参数较低的序列值。几何序列表示为:
\ [p ~ (1 - p) ^ {k - 1}, ~ ~ k = 1 . .n, ~ ~ 0 < p < 1 \]
和实现的功能\ (geom.series \),两个参数:\ (n \)的频率来计算\ (p \)几何参数的函数。
这个函数是有用的模拟一个广泛的频率配置文件,从准物种非常普遍的单体型的上述长队丰度很低,见下一个图。
票面价值(mfrow = c(1、2)有所< - 1 e5 * geom.series(100, 0.8)情节(有所,主要类型=“h”=“几何级数与p = 0.8”, cex.main = 1) ab2 < - 1 e5 * geom.series(100, 0.001)情节(ab2、类型=“h”,主要=“几何级数与p = 0.001”, ylim = c(0,马克斯(ab2)), cex.main = 1)
几何序列的线性组合与不同大小的参数有助于获得典型的准物种配置文件:
有所< - 1 e5 * (geom.series (100, 0.8) + geom.series(100, 0.05))情节(type = " h ",有所主要=“几何级数的组合”)
这个函数\ (fn.ab \)与fn参数设置\ (pf \),\ (pcf \),\ (dfp \)足够灵活,能够获得典型的准物种资料丰富的阈值以下,在过滤掉所有单体型考虑噪声的技术水平。这个函数,结合几何级数低到非常低的参数值,提供资料接近观察到的经验。
除了频率,我们需要模拟准物种的基因组。第一个任务为这个目的是生成的主要单体型\ (GetRandomSeq \)。这个函数是基因组的唯一参数的长度。输出是一个完全随机的核苷酸序列,作为一个字符串返回。
set.seed (23) m1 < - GetRandomSeq m1 (50)
# # [1]“ATTGTAGGACTAGAATTGCCGCACTCACGCGGCGCTAAGTGGTAGCTAGC”
可以生成变种基因的单体型\ (GenerateVars \)。此函数接受四个参数,\ (seq \)主要的单体型,\ (nhpl \)变异产生的数量,\ (max.muts \)的最大数量的突变基因,\ (p.muts \)每个突变数量从1到的概率\ (max.muts \)。它返回一个字符串向量与变异基因。
v1 < - GenerateVars (m1, 20 2 c (10,1)) DottedAlignment (c (m1, v1))
# # # # [1]“ATTGTAGGACTAGAATTGCCGCACTCACGCGGCGCTAAGTGGTAGCTAGC”[2]“........ T .........................................”## [3] ".............G...................................." ## [4] ".................................................T" ## [5] ".................T................................" ## [6] "...T.............................................." ## [7] ".............................................A...." ## [8] "...........G......................................" ## [9] "...........................A....G................." ## [10] "....G............................................." ## [11] ".........A........................................" ## [12] "....................................T............." ## [13] "................A................................." ## [14] ".........G........................................" ## [15] "........................G........................." ## [16] "...........G......................................" ## [17] ".................................A................" ## [18] "......................................A..........." ## [19] ".........................G...T...................." ## [20] "................C................................." ## [21] ".........A.....................................C.."
这些功能我们可以模拟一个准物种的急性感染;特点是一个占主导地位的单体型相当丰富,加上一些单在低丰度。
set.seed (23) n。基因组< - 25 m1 < - GetRandomSeq (50) v1 < - GenerateVars (m1, n.genomes-1 2 c (10,1)) w1 < - fn.ab (n.genomes, r = 3, fn =“色散”)data.frame (Hpl = DottedAlignment (c (m1, v1)),频率= w1)
# # Hpl频率................................................. ATTGTAGGACTAGAATTGCCGCACTCACGCGGCGCTAAGTGGTAGCTAGC # # 10000 # # 2T 1250 # # 3 ................. ................................370 # # 4 T ..............................................……156 # # 5 ............................................. ....80 # # 6 ........... G ......................................46 # # 7 ................................ T .................29 # # 8 ........................... G ......................19 # # 9 .... .... G ........................................13 # # 10 T ....................... ..........................10 # # 11 .................................... T .............7 # # 12 ................ ................................. 5 ## 13 .........G........................................ 4 ## 14 ........................G......................... 3 ## 15 ...........G...................................... 2 ## 16 .................................A................ 2 ## 17 ......................................A........... 2 ## 18 .............................G.................... 1 ## 19 ..................T..................G............ 1 ## 20 .........A........................................ 1 ## 21 ......C................................A.......... 1 ## 22 T................................................. 1 ## 23 ............C..................................... 1 ## 24 ..............................A................... 1 ## 25 ........................................A......... 1
准物种成分可以使用一个酒吧可视化情节描述单体型频率,与单按越来越多的突变对占主导地位的单体型,并在突变的数量,减少大量的顺序:
qs < - DNAStringSet (c (m1, v1)) lst < - SortByMutations qs (qs (w1) < - lst美元bseqs cnm < - cumsum(表(lst海里)美元)+ 1海里。pos < - as.vector (cnm)[长度(cnm)名称(nm.pos) < -名称(cnm[1])英国石油(bp) < - barplot (lst nr美元,坳=“薰衣草”)轴(1 = bp (nm.pos),标签=名字(nm.pos) cex.axis = 0.7)
与急性感染,慢性感染发展更慢;因此,生成大量的突变对占主导地位的单体型。此外,变异单体型可能更丰富的比急性感染在慢性。在本例中,我们将使用\ (GenerateVars \)具有更高的价值\ (max.muts \)在任何水平和高概率的突变体。
set.seed (23) n。基因组< - 40 m1 < - GetRandomSeq (50) v1 < - GenerateVars (m1, n.genomes-1 6 c (10、3、1、0.5、2、0.5)) w1 < - fn.ab (n.genomes, r = 1.5, fn =“色散”)data.frame (Hpl = DottedAlignment (c (m1, v1)),频率= w1)
# # Hpl ATTGTAGGACTAGAATTGCCGCACTCACGCGGCGCTAAGTGGTAGCTAGC频率# # 10000 # # 2 ........................... ......................3535 # # 3 . . ........ C ............... G .... G ......... C .......1924 # # 4 .......................... T .......................1250 # # 5……. . T……G ................... C T .........……894 # # 6 ..... G ........................... T ..............。680 # # 7 ............................. G ....................539 # # 8 ..................................... G ............441 # # 9……C . . T……........ T ............. .........370 # # 10 G ......................... ........................316 # # 11 G ...................... ............. C ......... T…… 274 ## 12 .........................................T........ 240 ## 13 ...................A.............................. 213 ## 14 ..................................A............... 190 ## 15 ...........................G...................... 172 ## 16 ...............C.................................. 156 ## 17 ..........................................C....... 142 ## 18 ....C............................................. 130 ## 19 ........T..G.....T.....AC.................C....... 120 ## 20 ...................................C.............. 111 ## 21 .G.........C...A...............T.................. 103 ## 22 ..........................T....................... 96 ## 23 ....A......G.....A....................A.........A. 90 ## 24 .................T...............C...........A.... 85 ## 25 ..............................................C... 80 ## 26 ..............................T................... 75 ## 27 ..A............................................... 71 ## 28 C.................A.T.G........C.................. 67 ## 29 .........A........................................ 64 ## 30 ......A.........G................................. 60 ## 31 .............................A....A..............G 57 ## 32 ............A......T.............T.....G........A. 55 ## 33 ............................................T..... 52 ## 34 ............C...C.T............................... 50 ## 35 ...............A.C....T.............C.......A..... 48 ## 36 .........T.C...........A.....T..........T......... 46 ## 37 .....................................C............ 44 ## 38 ........C......................................... 42 ## 39 ........CG..................A..................... 41 ## 40 .....................................T............ 39
再一次,我们可以使用酒吧图可视化准物种组成。
qs < - DNAStringSet (c (m1, v1)) lst < - SortByMutations qs (qs (w1) < - lst美元bseqs cnm < - cumsum(表(lst海里)美元)+ 1海里。pos < - as.vector (cnm)[长度(cnm)名称(nm.pos) < -名称(cnm[1])英国石油(bp) < - barplot (lst nr美元,坳=“薰衣草”)轴(1 = bp (nm.pos),标签=名字(nm.pos) cex.axis = 0.7)
沿着准物种动态我们可能会看到出现离析分组人口改善健身由于突变的组合,而不是一个。在这种情况下,\(发散\)函数帮助通过产生变异突变的常见模式。
set.seed (23) m1 < - GetRandomSeq (50) p2 < -发散(3:5,m1) DottedAlignment (c (m1, p2))
# # # # [1]“ATTGTAGGACTAGAATTGCCGCACTCACGCGGCGCTAAGTGGTAGCTAGC”[2]“........................... ........ C ........... t .”## [3] "...........................A........C.......A...T." ## [4] "...........................A..T.....C.......A...T."
这些序列的变异可以以常规的方式生产的\ (GenerateVars \)。
v1 < - GenerateVars (m1, 20 3 c(0.2十4)wv1 < - fn.ab(长度(v1), h = 1000, r = 1.5, fn =“色散”)wp2 < - c (600、1000、400) v2 < - GenerateVars (p2 [2], 20 3 c (10 1 0.1)) wv2 < - fn.ab(长度(v2), r = 2, h = wp2 [2] * 3 fn =“色散”)qs < -DNAStringSet (c (m1, v1, p2, v2)) w < -轮(c(10000年,wv1 wp2 wv2)) lst < - SortByMutations (q、w) qs < - lst美元bseqs data.frame (Hpl = DottedAlignment (qs), nr = lst nr美元)
# # # # Hpl nr Hpl_0_0001 ATTGTAGGACTAGAATTGCCGCACTCACGCGGCGCTAAGTGGTAGCTAGC 10000 # # T .............................................. Hpl_1_0001……1000 # # Hpl_1_0002 .............................................一....353 # # Hpl_1_0003 ........... G ......................................192 # # Hpl_1_0004 ................................ T .................125 # # Hpl_1_0005 ........................... G ......................89 # # Hpl_1_0006 ......... T ........................................68 # # Hpl_1_0007 .... G .............................................53 # # Hpl_1_0008 ................ .................................37 # # Hpl_1_0009 ........... G ......................................27 # # Hpl_1_0010 .................. G ............................... 19 ## Hpl_1_0011 ........................................C......... 17 ## Hpl_1_0012 ...............................................C.. 15 ## Hpl_1_0013 ....................C............................. 13 ## Hpl_1_0014 ..........................T....................... 12 ## Hpl_2_0001 .........T................T....................... 44 ## Hpl_2_0002 .................................A...............T 24 ## Hpl_2_0003 ......A......................T.................... 21 ## Hpl_2_0004 .........................T.............A.......... 14 ## Hpl_2_0005 ........................G...............A......... 11 ## Hpl_3_0001 ...........................A........C...........T. 600 ## Hpl_3_0002 .........G..............C...............A......... 31 ## Hpl_3_0003 ...........................A........C.......A..... 10 ## Hpl_4_0001 ...........................A........C.......A...T. 1000 ## Hpl_4_0002 ...........................A........C.......A...C. 17 ## Hpl_5_0001 ....C......................A........C.......A...T. 3000 ## Hpl_5_0002 .......................G...A........C.......A...T. 750 ## Hpl_5_0003 ...........................A..T.....C.......A...T. 400 ## Hpl_5_0004 ...........................A........C.....G.A...T. 333 ## Hpl_5_0005 ........................A..A........C.......A...T. 187 ## Hpl_5_0006 .................T.........A........C.......A...T. 120 ## Hpl_5_0007 ...........................A....G...C.......A...T. 83 ## Hpl_5_0008 ......................T....A........C.......A...T. 61 ## Hpl_5_0009 ...........................A...C....C.......A...T. 37 ## Hpl_5_0010 ...............G...........A........C.......A...T. 30 ## Hpl_5_0011 ...........................A........C.....A.A...T. 24 ## Hpl_5_0012 ..........................TA........C.......A...T. 20 ## Hpl_5_0013 ....G......................A........C.......A...T. 15 ## Hpl_5_0014 ...........................A........C.......A.C.T. 13 ## Hpl_5_0015 .................A.........A........C.......A...T. 11 ## Hpl_5_0016 .................T.........A........C.......A...T. 9 ## Hpl_5_0017 ...........................A........C.......AT..T. 8 ## Hpl_6_0001 ...........................A.......CC...A...A...T. 46 ## Hpl_6_0002 ..........................TA........C.......A.G.T. 7
基因组Hpl_4_0001产生离析的人口。
cnm < - cumsum(表(lst海里)美元)+ 1海里。pos < - as.vector (cnm)[长度(cnm)名称(nm.pos) < -名称(cnm[1])英国石油(bp) < - barplot (lst nr美元,坳= c(“薰衣草”、“粉红色”)[c(代表(22),代表(20))))轴(1 = bp (nm.pos),标签=名字(nm.pos) cex.axis = 0.7)
# # R版本4.2.0 RC (2022-04-19 r82224) # #平台:x86_64-pc-linux-gnu(64位)# #下运行:Ubuntu 20.04.4 LTS # # # #矩阵产品:默认# #布拉斯特区:/home/biocbuild/bbs - 3.15 - bioc / R / lib / libRblas。所以# # LAPACK: /home/biocbuild/bbs - 3.15 - bioc / R / lib / libRlapack。# # # #语言环境:# # [1]LC_CTYPE = en_US。utf - 8 LC_NUMERIC = C # #[3]而= en_GB LC_COLLATE = C # # [5] LC_MONETARY = en_US。utf - 8 LC_MESSAGES = en_US。utf - 8 # # [7] LC_PAPER = en_US。utf - 8 LC_NAME = C # # [9] LC_ADDRESS C = C LC_TELEPHONE = # # [11] LC_MEASUREMENT = en_US。utf - 8 LC_IDENTIFICATION = C附加基本包:# # # # # # [1]stats4统计图形grDevices跑龙套数据集方法# # # # # #[8]基地其他附加包:# # [1]psych_2.2.3 QSutils_1.14.0 ggplot2_3.3.5 # # [4] ape_5.6-2 Biostrings_2.64.0 GenomeInfoDb_1.32.0 # # [7] XVector_0.36.0 IRanges_2.30.0 S4Vectors_0.34.0 # # [10] BiocGenerics_0.42.0 BiocStyle_2.24.0 # # # #通过加载一个名称空间(而不是附加):# # [1]tidyselect_1.1.2 xfun_0.30 bslib_0.3.1 # # [4] purrr_0.3.4 lattice_0.20-45 colorspace_2.0-3 # # [7] vctrs_0.4.1 generics_0.1.2 htmltools_0.5.2 # # [10] yaml_2.3.5 utf8_1.2.2 rlang_1.0.2 # # [13] jquerylib_0.1.4 pillar_1.7.0 withr_2.5.0 # # [16] DBI_1.1.2 glue_1.6.2 GenomeInfoDbData_1.2.8 # # [19] lifecycle_1.0.1 stringr_1.4.0 zlibbioc_1.42.0 # # [22] munsell_0.5.0 gtable_0.3.0 evaluate_0.15 # # [25] labeling_0.4.2 knitr_1.38 fastmap_1.1.0 # # [28] parallel_4.2.0 fansi_1.0.3 highr_0.9 # # [31] Rcpp_1.0.8.3 scales_1.2.0 BiocManager_1.30.17 # # [34] magick_2.7.3 jsonlite_1.8.0 tmvnsim_1.0-2 # # [37] farver_2.1.0 mnormt_2.0.2 digest_0.6.29 # # [40] stringi_1.7.6 bookdown_0.26 dplyr_1.0.8 # # [43] grid_4.2.0 cli_3.3.0 tools_4.2.0 # # [46] bitops_1.0-7 magrittr_2.0.3 sass_0.4.1 # # [49] rcurl_1.98 - 1.6 tibble_3.1.6 crayon_1.5.1 # # [52] pkgconfig_2.0.3 ellipsis_0.3.2 assertthat_0.2.1 # # [55] rmarkdown_2.14 R6_2.5.1 nlme_3.1 - 157 # # [58] compiler_4.2.0
Gregori,约瑟,西莉亚·佩拉尔斯,弗朗西斯科Rodriguez-Frias,胡安。埃斯特万,Josep这位和埃斯特万·多明戈。2016。“病毒准物种复杂性措施。”病毒学493:227 - 37。https://doi.org/10.1016/j.virol.2016.03.017。
约瑟,Gregori Miquel Salicru,埃斯特万·多明戈,亚历克斯·桑切斯胡安。埃斯特万,弗朗西斯科Rodriguez-Frias,约瑟这位》2014。“推理与病毒准物种多样性指数:克隆和门店的方法。”生物信息学30(8):1104 - 11所示。https://doi.org/10.1093/bioinformatics/btt768。