SynMut:工具设计同义突变序列

狮子座L.M. Poon Haogao顾

香港大学公共卫生学院

2021-10-26


介绍

同义突变是指DNA / RNA序列的突变的原因没有修改翻译的氨基酸序列。大部分的同义突变也沉默突变,因为他们没有可观察到的对生物体的表型的影响。设计与同义突变序列突变通常是应用于许多生物研究方法来控制一些不必要的翻译的氨基酸序列的变化。

密码子使用偏差和二核苷酸使用偏差是DNA / RNA序列的两个基因签名,即使是同义的序列。描述的功能的序列不同的密码子使用偏差或二核苷酸使用偏差有助于研究他们对各种生物功能的影响。事实上,这种方法已经应用于许多在病毒学研究。

SynMut提供了一些工具来生成多个不同基因组的DNA序列的特性(尤其是密码子/二核苷酸使用模式)。用户还可以指定可变区域的序列(这是特别有用,因为有一些保守的基因组区域,我们不希望修改)。这个工具最初设计用于生成重组病毒序列在甲型流感病毒研究使用不同的二核苷酸和密码子使用的影响,然而,这些函数可以通用这个包中提供各种其他生物研究。

下面是一个流程图说明组件工作togaether如何在这个包中。

开始

输入数据

我们使用以下包中的数据为例。

  • example.fasta:fasta文件包含段7和8的DNA序列甲型流感/布里斯班/ 59/2007 (H1N1) (BR59)
  • target_regions.csv:该地区在csv格式读取的文件data.frame指定用户定义的可变位置(在氨基酸位置)对应的DNA序列。

input_seq函数接受系统fasta文件或DNAStringSet对象作为输入,构建一个regioned_dna中使用的对象SynMut包中。

重要的笔记:如果地区参数中指定了regioned_dna对象时,它将自动适用于所有下游功能突变。突变只会执行指定的可变区域。

访问数据

各种各样的get_函数是用来得到一些有用的信息:

  • get_dna:访问的DNA序列。这将返回一个DNAStringSet对象(从Biostrings包)。
  • get_region:访问用户定义的可变区域。如果没有指定区域,这个函数将返回一个列表长度为0。
  • get_cu:密码子的使用
  • get_du:二核苷酸的使用
  • get_nu:核苷酸的使用
  • 我们还提供功能:
    • 同义密码子的密码子使用频率:get_freq
    • 得到相对同义密码子使用同义密码子(rscu):get_rscu

产生突变

随机的突变体

生成随机的突变(如果提供的特定区域input_seq),可选让或不让原来的密码子使用的偏见。

#随机同义突变无足轻重的人。seq < -codon_random(rgd.seq)#比较密码子使用get_cu(mut.seq)- - - - - -get_cu(rgd.seq)# > AAA AAC亚美大陆煤层气有限公司AAT ACA ACC ACG行动AGA AGC gg AGT ATA ATC ATG ATT CAA CAC# > [1]4 3 4 3 2 5 0 3 1 2 4 2 0 1 0 1 0 2# > [2]0 1 0 1 4 0 6 2 2 0 1 1 2 2 0 0 1 0# > CAG猫CCA CCC 20有条件现金转移支付注册会计师公司治理文化CGG CGT CTA CTC CTG CTT棉酚广汽GAG手枪# > [1]0 2 3 0 2 1 1 5 2 1 2 4 5 3 2 3 2# > [2]1 0 1 0 0 1 2 1 2 2 2 1 0 1 1 1 3# > GCA GCC GCG GCT GGA GGC GGG GGT GTA GTC GTG GTT TAA TAC标记答柠檬酸移行细胞癌# > [1]3 3 4 2 3 4 1 2 2 2 2 2 0 1 0 1 2 0# > [2]1 2 0 1 2 1 2 5 4 3 2 0 1 0 0 0 0 1# > TCG TCT TGA TGC TGG TGT TTA TTC TTG到达目标时间# > [1]2 0 0 1 0 1 0 1 6 1# > [2]1 1 0 1 0 1 5 1 1 1#保持原来的密码子使用模式无足轻重的人。seq < -codon_random(rgd.seq保持=真正的)#比较密码子使用get_cu(mut.seq)- - - - - -get_cu(rgd.seq)# > AAA AAC亚美大陆煤层气有限公司AAT ACA ACC ACG行动AGA AGC gg AGT ATA ATC ATG ATT CAA CAC# > [1]0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0# > [2]0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0# > CAG猫CCA CCC 20有条件现金转移支付注册会计师公司治理文化CGG CGT CTA CTC CTG CTT棉酚广汽GAG手枪# > [1]0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0# > [2]0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0# > GCA GCC GCG GCT GGA GGC GGG GGT GTA GTC GTG GTT TAA TAC标记答柠檬酸移行细胞癌# > [1]0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0# > [2]0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0# > TCG TCT TGA TGC TGG TGT TTA TTC TTG到达目标时间# > [1]0 0 0 0 0 0 0 0 0 0# > [2]0 0 0 0 0 0 0 0 0 0

我们也可以指定n参数控制的密码子突变的比例。

同义突变体与最大/最小使用特定的密码子

当研究一个特定的密码子的作用,它会有用的突变体最大/最小密码子的使用。的codon_to函数将为你做这项工作。通过一连串的密码子的max.codonmin.codon参数最大化或最小化序列中的某些密码子的使用。

#生成AAC-maximized突变无足轻重的人。seq < -codon_to(rgd.seqmax.codon=“AAC格式”)#比较密码子使用get_cu(mut.seq)- - - - - -get_cu(rgd.seq)# > AAA AAC亚美大陆煤层气有限公司AAT ACA ACC ACG行动AGA AGC gg AGT ATA ATC ATG ATT CAA CAC# > [1]0 8 0 8 0 0 0 0 0 0 0 0 0 0 0 0 0 0# > [2]0 6 0 6 0 0 0 0 0 0 0 0 0 0 0 0 0 0# > CAG猫CCA CCC 20有条件现金转移支付注册会计师公司治理文化CGG CGT CTA CTC CTG CTT棉酚广汽GAG手枪# > [1]0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0# > [2]0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0# > GCA GCC GCG GCT GGA GGC GGG GGT GTA GTC GTG GTT TAA TAC标记答柠檬酸移行细胞癌# > [1]0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0# > [2]0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0# > TCG TCT TGA TGC TGG TGT TTA TTC TTG到达目标时间# > [1]0 0 0 0 0 0 0 0 0 0# > [2]0 0 0 0 0 0 0 0 0 0#生成AAC-minimized突变无足轻重的人。seq < -codon_to(rgd.seqmin.codon =“AAC格式”)#比较密码子使用get_cu(mut.seq)- - - - - -get_cu(rgd.seq)# > AAA AAC亚美大陆煤层气有限公司AAT ACA ACC ACG行动AGA AGC gg AGT ATA ATC ATG ATT CAA CAC# > [1]0 2 0 2 0 0 0 0 0 0 0 0 0 0 0 0 0 0# > [2]0 3 0 3 0 0 0 0 0 0 0 0 0 0 0 0 0 0# > CAG猫CCA CCC 20有条件现金转移支付注册会计师公司治理文化CGG CGT CTA CTC CTG CTT棉酚广汽GAG手枪# > [1]0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0# > [2]0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0# > GCA GCC GCG GCT GGA GGC GGG GGT GTA GTC GTG GTT TAA TAC标记答柠檬酸移行细胞癌# > [1]0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0# > [2]0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0# > TCG TCT TGA TGC TGG TGT TTA TTC TTG到达目标时间# > [1]0 0 0 0 0 0 0 0 0 0# > [2]0 0 0 0 0 0 0 0 0 0

同义突变体与最大/最小使用特定的二核苷酸

使用dinu_to生成与最大/最小使用特定的二核苷酸突变。这是通过一个两步启发式贪婪算法,可以在这找到详细信息链接

另一种选择保持= TRUE参数允许保留原来的密码子使用的偏见。这可以结合时有用codon_mimic下一节设计突变序列与类似的密码子使用偏差但截然不同的特定的二核苷酸使用。

# Maximaize使用“CG”二核苷酸在预定义的地区无足轻重的人。seq < -dinu_to(rgd.seqmax。dinu =“重心”)#检查dinucelotide突变和原来的用法区别get_du(mut.seq)- - - - - -get_du(rgd.seq)# > AA AC AG)在CA CC CG CT GA GC GG GT TA TC TG TT# > [1]-14 9 -29 -25 -12 8 96 8 7 37 1 0 -26 -37 -23# > [2]-22 5 -20 -19 7 86 9 -30 -32 4 -19 25#最小化“CA”的用法,比较二核苷酸使用。无足轻重的人。seq < -dinu_to(rgd.seqmin.dinu =“CA”)get_du(mut.seq)- - - - - -get_du(rgd.seq)# > AA AC AG)在CA CC CG CT GA GC GG GT TA TC TG TT# > [1]21 -22 -39 7 -40 34 8 2 -14 9 19 4 2 12 33# >[2]10 -12 -23 -13 -35 -17 19 1 6 -14 -11年22日13日21日31日#最大化“重心”的使用,同时保持原来的密码子使用无足轻重的人。seq < -dinu_to(rgd.seqmax。dinu =“重心”,保持=真正的)#比较二核苷酸的使用get_du(mut.seq)- - - - - -get_du(rgd.seq)# > AA AC AG)在CA CC CG CT GA GC GG GT TA TC TG TT# > [1]4 0 5 1 -20 4 26 2 1 0 1 0 4 -20 1# > [2]0 2 4 2 4 -14 5 23 3 1 4 0 11 2 -15 2#比较密码子使用get_cu(mut.seq)- - - - - -get_cu(rgd.seq)# > AAA AAC亚美大陆煤层气有限公司AAT ACA ACC ACG行动AGA AGC gg AGT ATA ATC ATG ATT CAA CAC# > [1]0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0# > [2]0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0# > CAG猫CCA CCC 20有条件现金转移支付注册会计师公司治理文化CGG CGT CTA CTC CTG CTT棉酚广汽GAG手枪# > [1]0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0# > [2]0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0# > GCA GCC GCG GCT GGA GGC GGG GGT GTA GTC GTG GTT TAA TAC标记答柠檬酸移行细胞癌# > [1]0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0# > [2]0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0# > TCG TCT TGA TGC TGG TGT TTA TTC TTG到达目标时间# > [1]0 0 0 0 0 0 0 0 0 0# > [2]0 0 0 0 0 0 0 0 0 0

同义突变体模拟特定的密码子使用模式

这个函数codon_mimic变异序列来模拟目标密码子使用模式。详细的算法提供了链接

alt参数指定目标密码子的使用在一个密码子使用向量(结果get_cu)或DNAStringSet长度1代表所需的密码子使用。

#使用一个密码子用法向量作为目标目标< -get_cu(rgd.seq) [2,)无足轻重的人。seq < -codon_mimic(rgd.seqalt =目标)#比较密码子使用get_cu(mut.seq)- - - - - -get_cu(rgd.seq)# > AAA AAC亚美大陆煤层气有限公司AAT ACA ACC ACG行动AGA AGC gg AGT ATA ATC ATG ATT CAA CAC# > [1]3 2 3 2 1 1 5 2 0 0 3 1 1 0 2 2 1# > [2]0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0# > CAG猫CCA CCC 20有条件现金转移支付注册会计师公司治理文化CGG CGT CTA CTC CTG CTT棉酚广汽GAG手枪# > [1]2 1 0 0 0 0 2 1 4 1 3 0 1 4 0 4 0# > [2]0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0# > GCA GCC GCG GCT GGA GGC GGG GGT GTA GTC GTG GTT TAA TAC标记答柠檬酸移行细胞癌# > [1]3 7 3 1 2 4 1 0 1 2 1 0 2 0 2 2 2# > [2]0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0# > TCG TCT TGA TGC TGG TGT TTA TTC TTG到达目标时间# > [1]0 1 0 1 0 1 2 2 2 2# > [2]0 0 0 0 0 0 0 0 0 0#使用序列作为目标目标< -Biostrings::DNAStringSet(“TTGAAAA-CTC-N——亚美大陆煤层气有限公司”)无足轻重的人。seq < -codon_mimic(rgd.seqalt =目标)#比较密码子使用get_cu(mut.seq)- - - - - -get_cu(rgd.seq)# > AAA AAC亚美大陆煤层气有限公司AAT ACA ACC ACG行动AGA AGC gg AGT ATA ATC ATG ATT CAA CAC# > [1]1 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0# > [2]1 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0# > CAG猫CCA CCC 20有条件现金转移支付注册会计师公司治理文化CGG CGT CTA CTC CTG CTT棉酚广汽GAG手枪# > [1]0 0 0 0 0 0 0 0 0 0 1 4 5 7 0 0 0 0# > [2]0 0 0 0 0 0 0 0 0 0 5 3 4 6 0 0 0 0# > GCA GCC GCG GCT GGA GGC GGG GGT GTA GTC GTG GTT TAA TAC标记答柠檬酸移行细胞癌# > [1]0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0# > [2]0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0# > TCG TCT TGA TGC TGG TGT TTA TTC TTG到达目标时间# > [1]19 0 0 0 0 0 0 2 0 0# > [2]19 0 0 0 0 0 0 1 0 0#比较同义密码子的使用频率get_freq(mut.seq)- - - - - -get_freq(rgd.seq)# > AAA AAC亚美大陆煤层气有限公司AAT ACA ACC ACG AGA AGC gg AGT ATA ATC行动-0.07692308 # > [1]0.07692308 0 0 0 0 0 0 0 0 0 0 0 00.07692308 # > [2]-0.07692308 0 0 0 0 0 0 0 0 0 0 0 0# > ATG ATT CAA CAC CAG猫CCA CCC 20有条件现金转移支付注册会计师公司治理文化CGG CGT CTA# > [1]0 0 0 0 0 0 0 0 0 0 0 0 0 0 -0.03846154# > [2]0 0 0 0 0 0 0 0 0 0 0 0 0 0 -0.22727273# > CTC CTG CTT棉酚广汽GCC GCG GCT GGA GGC甘氨胆酸呕吐手枪# > [1]-0.1538462 -0.1923077 -0.2692308 0 0 0 0 0 0 0 0 0 0# > [2]-0.1363636 -0.1818182 -0.2727273 0 0 0 0 0 0 0 0 0 0# > GGG GGT GTA GTC GTG GTT TAA TAC标签答柠檬酸太极拳TCG TCT TGA TGC TGG TGT# > [1]0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0# > [2]0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0# > TTA TTC TTG到达目标时间# > [1]-0.07692308 0 0.7307692 0# > [2]-0.04545455 0 0.8636364 0#比较相对同义密码子的使用(RSCU)get_rscu(mut.seq)- - - - - -get_rscu(rgd.seq)# > AAA AAC亚美大陆煤层气有限公司AAT ACA ACC ACG AGA AGC gg AGT ATA ATC ATG行动-0.1538462 # > [1]0.1538462 0 0 0 0 0 0 0 0 0 0 0 0 00.1538462 # > [2]-0.1538462 0 0 0 0 0 0 0 0 0 0 0 0 0# > ATT CAA CAC CAG猫CCA CCC 20有条件现金转移支付注册会计师公司治理文化CGG CGT CTA CTC# > [1]0 0 0 0 0 0 0 0 0 0 0 0 0 -0.2307692 - -0.9230769# > [2]0 0 0 0 0 0 0 0 0 0 0 0 0 -1.3636364 - -0.8181818# > CTG CTT棉酚广汽GAG手枪GCA GCC GCG GCT GGA GGC GGG GGT侠盗猎车手# > [1]-1.153846 - -1.615385 0 0 0 0 0 0 0 0 0 0 0 0 0# > [2]-1.090909 - -1.636364 0 0 0 0 0 0 0 0 0 0 0 0 0# > GTC GTG GTT TAA TAC标签答柠檬酸太极拳TCG TCT TGA TGC TGG TGT TTA TTC# > [1]0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 -0.4615385 0# > [2]0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 -0.2727273 0# > TTG到达目标时间# > [1]4.384615 0# > [2]5.181818 0