剪接是从新生的pre-mRNA转录本中去除内含子序列,从而形成成熟mRNA。剪接有许多机制,是一个通常涉及多个rna结合蛋白的调节过程。在真核生物中,剪接可导致基因异构体、多顺子转录本、基因融合和环状RNA (circRNA)。
rna测序可以捕捉到剪接的复杂性。Ularcirc采用由各种程序(STAR aligner, Regtools, circExplorer2, CIRI2)生成的标准正向切片结(FSJ)和反向拼接结(BSJ)输出,并提供了一个平台来集成和分析这些数据集。Ularcirc为前向规范剪接(由成熟mrna生成)和后向剪接(由环状rna生成)提供了可视化和分析工具。Ularcirc动态生成可视化,包括在基因位点内缩放定义区域的能力,并且还可以提取跨越特定外显子连接的转录序列。
理论上Ularcirc可以在任何能够运行r编程语言的硬件上运行。所有操作都通过菜单驱动的交互式分析实时进行,其中数据表和可视化是动态生成的。Ularcirc不需要大量的计算资源,目前实现在一个CPU线程上操作。保存的项目数据集很小(通常在低MB范围内),因此可以轻松共享数据文件。关于如何使用Ularcirc的入门教程可以在youtube上找到。
Ularcirc由由主面板和侧面板组成的众多互动屏幕组成。主面板允许从四个有标题的选项卡中选择一个设置
,项目
,Gene_View
,Genome_View
,Junction_View
.每个主面板都有一个不同的侧面板,并显示有助于指导和组合分析的特定选项。主面板将显示与本插图详细描述的circRNA分析的每个阶段相关的输出。用户应该意识到一些分析可能需要时间才能完成,浮动状态条将通知进度。结束\{文摘}
下面演示如何下载Ularcirc,安装所需的数据库,然后可视化基因Slc8a1的规范和反剪接连接计数。
STEP1:安装Ularcirc包
如果(!requireNamespace("BiocManager", quiet =TRUE)) install.packages("BiocManager")
STEP2:加载注释数据库:Ularcirc提供了一个与hg38对齐的现有数据集。虽然识别环状rna不需要注释,但我们建议下载相应的人工注释数据库,如下所示:
如果(!requireNamespace("BiocManager", quiet =TRUE)) install.packages("BiocManager") \dontrun {BiocManager::install(c(" bsgenome . hspiens . ucsc . "hg38”,#基因组;txdb . hspapiens . ucsc .hg38。knownGene", #转录数据库"org.Hs.eg.db"))) #注释数据库}
启动Ularcirc,加载注释数据库,加载项目数据
库(Ularcirc) Ularcirc ()
如果注释+转录本+基因组数据库已加载加载转录本数据库
它们应该自动填充在左侧面板上(如图所示)1.新闻加载转录本数据库
在这个按钮下面会出现文本Hsapiens.UCSC.hg38
.
预加载的数据集称为TwoSzabo,它是通过Project选项卡加载的。加载时,弹出窗口将显示关联元数据(包含信息供您参考)。点击窗口外的任何地方关闭它。下面应该出现两个数据文件选择的样本
而且分组分析
主标签上的标题。
目的:
导航到Gene_View
选项卡。TwoSzabo数据集包含两个BSJ数据源和一个FSJ数据源。BSJ数据是从STAR Chimeric输出连接文件或circExplorer2生成的。下面有一个单选按钮BSJ数据源
这允许您选择希望分析的数据集。在分析任何BSJ之前,您都需要组装整理好的BSJ数据表。要为circExplorer2数据执行此操作,请确保选中circExplorer2单选按钮,然后按下建立表
在左手面板下面表显示选项
.对于STAR衍生BSJ数据,选择STAR单选按钮,然后选择用亲本基因注释
如图所示2.对于STAR BSJ数据,您需要通过选择下面的数字来选择您希望识别的BSJ数量要显示的BS连接数
(即数字越高,组装所需的时间就越长。注意在这个过程中BSJ最丰富)。下一个选择建立表
然后Ularcirc将构建一个带有注释的背香料连接计数表。
选择表中的第一个条目(它将以蓝色突出显示)。下一个选择Display_Gene_Transcripts
从左边标签下的标题显示模式
.这将动态生成具有后剪接和规范前剪接连接的Slc8a1的可视化。
视图这段5分钟的截屏这将涵盖以上几点和更多。
Ularcirc需要由STAR对齐器生成的规范和嵌合拼接连接输出文件,它们必须分别包含SJ.out.tab和chimic .out.junction的默认文件扩展名。有关如何使用STAR对齐器的详细说明,请阅读明星手册.请注意,STAR对齐器需要大量的计算资源。如果您无法访问其他高性能计算资源,可以使用公开的GALAXY资源来运行STARhttps://usegalaxy.org).要生成所需的嵌合结文件,必须向STAR校准器提供以下两个参数。为每个参数提供的数值描述了用于检测嵌合读取的特征,因此可能需要更改以提高灵敏度和准确性。
——chimSegmentMin 15——chimJunctionOverhangMin 15
Ularcirc只能通过一次上传向单个项目添加文件。尝试多次上传只会导致以前的上传被当前上传覆盖。单个或多个示例由一个公共的文件前缀标识。因此,对于一个给定的项目,所有的拼接连接文件必须位于一个公共目录中,并具有适当的文件前缀。例如,如果将以下文件上传到Ularcirc:
SRR12345678_e17.5_heart.Chimeric.out。结SRR12345678_e17.5_heart.SJ.out。选项卡SRR87654321_P10_heart.Chimeric.out。结SRR87654321_P10_heart.SJ.out。tab
上面的示例将导致两个示例id被导入Ularcirc, SRR123456768_e17.5_heart和SRR87654321_P10_heart。强烈建议提供一个描述性的名称,因为Ularcirc目前不提供重命名示例的功能。上传文件后,可以输入并保存项目文件名。可以指示STAR对齐器为输出文件分配一个公共前缀。这可以通过以下选项指定:
——outFileNamePrefix Type_your_prefix_here
Ularcirc可以通过集成生物导体数据库注释反剪接和规范剪接。每个生物需要三个安装,下面显示了最新的人类和小鼠所需的数据集示例。
数据库类型 | hg38的数据库名称 |
---|---|
BSGenome | BSgenome.Hsapiens.UCSC.hg38 |
TxDb | TxDb.Hsapiens.UCSC.hg38.knownGene |
OrgDatabase | org.Hs.eg.db |
数据库类型 | mm10的数据库名称 |
---|---|
BSGenome | BSgenome.Mmusculus.UCSC.mm10 |
TxDb | TxDb.Mmusculus.UCSC.mm10.knownGene |
OrgDatabase | org.Mm.eg.db |
Ularcirc的设计遵循一个逻辑系统的工作流,该工作流被分解为五个关键步骤。每个步骤都可以通过一个选项卡来执行,可以通过主面板进行选择,如图所示。工作流从最左边的选项卡(设置)开始,这是显示的初始屏幕。设置选项卡还提供了简要描述工作流程的快速入门指南。本章提供了这些步骤的更深入的概述,鼓励用户熟悉本章的内容,以充分利用Ularcirc。
启动后,Ularcirc加载并显示内容设置
主面板中的选项卡。侧板可以配置为三个选项之一,这是通过下拉菜单下选择步配置
.默认配置是加载转录数据库,它可以通过标题下的单独下拉菜单选择生物、基因组和转录组数据库生物
.如果三个下拉菜单没有填充,这表明数据库还没有从bioconductor安装。
Ularcirc提供了基因组过滤选项和环状rna过滤选项。基因组过滤提供了限制嵌合(BSJ)检测到定义的基因组距离/位置的选项。默认限制旨在捕获大多数哺乳动物环状rna。然而,这些限制可以放宽,这将增加嵌合候选者的数量和潜在的假阳性。下面是基因组过滤器的描述:
过滤器 | 描述 |
---|---|
相同的染色体 | 选中此复选框将只选择跨越共同染色体的嵌合读。 |
嵌合基因组距离 | 这是在同一染色体上鉴定的嵌合连接所考虑的最大和最小嵌合距离。默认设置将不会检测跨越小于200nt或大于100000nt的嵌合结。 |
相同的链 | 只会选择来自同一链的嵌合连接。 |
设计了两个circRNA过滤器来区分假阳性和真阳性。第一个过滤器是读对齐分布(RAD)评分,即II型和III型对齐的比率。它只能对成对的末端测序数据进行计算,并且只能应用于具有合理深度的BSJ(如> 9)。
第二个筛选器被调用FSJ支持
它可以识别每个BSJ坐标是否也用于FSJ。假设有两个坐标定义BSJ,相应的FSJ支持度量值可以是0,1或2。FSJ支持分数可以为所有BSJ计算,而不考虑读计数。
Ularcirc提供了针对RAD和FSJ支持度量的预定义值筛选BSJ的功能。在选择DisplayFilterOptions复选框后,可以在基因选项卡下修改默认阈值(见下图)
Ularcirc要求可以从以下程序生成的输出文件:STAR aligner, circExplorer2, CIRI2, regtools。为实现完整功能,每个样本至少加载一个FSJ、一个BSJ和一个基因计数数据集。STAR对齐器生成FSJ、BSJ和基因计数输出文件,这些文件具有以下预设的文件扩展名:SJ.out.tab (FSJ)、chimic .out.junction(嵌合连接)和ReadsPerGene.tab.out(基因计数)。CircExplorer2和CIRI2输出文件必须具有文件扩展名ce
而且ciri
一半。
每个样本的输入文件的前缀都是通用的,这一点非常重要(示例如下所示)。要上传文件,用户必须导航到安装选项卡选择上传新数据
然后选择浏览
在标题下上传输入数据文件
.在文件上传之前,一些基因组过滤配置选项是可用的。默认过滤器要求嵌合排列存在于同一染色体的同一链上,嵌合连接发生在小于10万个核苷酸的距离上。这些值可以通过屏幕上显示的交互选项进行调整。目前还没有为规范拼接连接实现过滤器,Ularcirc将利用来自输入FSJ文件的所有信息。对于STAR FSJ文件,Ularcirc只使用唯一的对齐计数。
多个样本可以上传到Ularcirc,但这只能在一个上传事件中完成。因此,所有文件都必须驻留在一个公共目录中,这样它们都可以被选择上传。尝试单独上传文件只会导致以前的上传被当前上传覆盖。在上传过程中,Ularcirc显示一个状态选项卡,通知进度。用户将收到Ularcirc无法识别的任何文件(即文件扩展名不正确)的通知。在多文件上传过程中,示例由一个公共文件前缀标识。例如,如果将以下文件上传到Ularcirc
SRR12345678_e17.5_heart.Chimeric.out。结SRR12345678_e17.5_heart.SJ.out。选项卡SRR12345678_e17.5_heart.ReadsPerGene.tab。SRR12345678_e17.5_heart。ceSRR87654321_P10_heart.Chimeric.out.junction SRR87654321_P10_heart.SJ.out.tab SRR87654321_P10_heart.ReadsPerGene.tab.out SRR87654321_P10_heart.ce
上面的示例将导致两个示例id被导入Ularcirc, SRR123456768_e17.5_heart和SRR87654321_P10_heart。每个样本将包含四个数据集(一个FSJ,一个基因计数和两个BSJ数据文件),每个数据集将在Ularcirc中通过这些名称引用。强烈建议在保存为Ularcirc时提供一个描述性的项目名称,此时Ularcirc不提供重命名示例的功能。
上传文件后,可以输入并保存项目文件名(请参阅Step2保存/加载项目)。
可以通过Projects选项卡保存或加载新数据集或现有项目数据集。通过Ularcirc加载的数据集可以保存为项目文件,然后可以在以后的日期重新加载。项目应该保存在本地文件系统中存在的普通文件夹/目录中。这个文件夹/目录定义在projects选项卡主页的顶部。这个目录不应该设置为R Ularcirc库目录,因为未来的任何升级都会覆盖现有的文件。
RNA-Seq库准备试剂盒有大量的选择。用户应注意图书馆准备包是否滞留或未滞留。链RNA- seq试剂盒要么复制与RNA相同或相反链的cDNA。例如,Illumina TruSeq链RNA-seq库准备试剂盒生产与RNA链相反的cDNA。Ularcirc需要知道这些信息才能正确地构建表和组装序列。用户将此信息提供给Ularcirc项目选项卡
在标题下图书馆准备
在左边栏。
工作目录中所有已保存的项目都将在侧边栏“Load”标题下的下拉菜单中列出。请注意,在当前Ularcirc会话中加载的任何新数据集在重新启动Ularcirc之前都是不可见的。要加载选择项目名称并按load。当在主选项卡上列出示例名称时,将加载数据。
要保存一个项目,必须在条目下的侧边栏中输入唯一的项目名称项目名称
然后按下保存按钮。Ularcirc不会覆盖现有的项目文件,如果输入的名称不是唯一的,会警告用户。
在加载项目文件或上传新的连接数据后,相关的示例id将在主选项卡上的两个位置以复选框的形式列出。这两个列表被称为“选定的样本”和“数据分组”,并为执行下游分析的方式提供了灵活性。
下面是第一个列表选择的样本
为用户提供分析要分析的特定数据集的子集的选项。此选项有助于探索项目中可用的单个数据集中的circRNA表达模式。在此列表中选择的数据集是唯一有助于Gene_View选项卡下的集成基因组可视化的样本。在此列表中删除的数据集可用于通过Gene_View选项卡选择“Selected Samples”对反拼接结计数进行制表。
标题下提供了第二个示例id清单分组分析
数据集。在这里,用户可以将样本分配给特定的群体,这对于整个项目的分析非常有用。组的数量在侧栏中定义,范围在1到10之间。在定义了组的数量后,可以通过主面板将单个样本分配给一个组。在这个列表中选择的样本可以通过Gene_View选项卡下的“分组分析”进行分析。
Gene_view选项卡是结果表和数据可视化发生的位置。有两种显示模式可供选择显示基因转录本
而且列表项
可以在侧边栏中进行选择。“表格计数”提供了对反向拼接连接的实时整理、注释和分析。上定义的数据集项目
TAB被称为分组分析
或选择的样本
在标题要分析的数据集
.
Ularcirc提供了许多被合并到表中的注释选项。第一个注释选项是显示父母成绩单%
.这种注释是最消耗CPU的操作,因为Ularcirc计算了不同基因特征之间的平均前向剪接连接(FSJ)。这包括计算BSJ边界内的平均FSJ计数,跨亲本基因的平均FSJ计数,以及BSJ边界外的平均FSJ计数。
读取对齐分布(RAD)注释提供了一个评分指标,用于帮助评估BSJ是否可能是假阳性。此分数只能从成对的结束读计算,并反映从一个读对捕获BSJ的对齐比例。我们将在主读取中捕获BSJ的对齐定义为Type II,在配对读取中检测到的BSJ定义为Type III。0.5的值反映了BSJ在II型和III型对齐中检测到的比例相等。默认设置是接受RAD分数在0.05到0.95之间的所有BSJ,并且在所有组装的表中自动填充这个分数。的应用RAD过滤器
check选项提供了一个快速选项来禁用bsj的RAD评分过滤。
Ularcirc会自动为所有条目标注重叠亲本基因的基因名。Ularcirc不基于任何亲本基因过滤器(如外显子边界)来过滤BSJ。如果一个BSJ与两个基因重叠,则两个基因条目都将被填充到最终表中。不与已知基因重叠的BSJ被填充未知的
.
生成的表提供了选择单个拼接连接(FSJ和BSJ)的功能。通过选择一个表行,将启动Ularcirc以显示该基因条目并以颜色突出显示特定的连接。它还在“Junction_View”选项卡中启动要分析的连接。
Ularcirc动态生成集成了后向剪接的前向剪接的可视化。这个功能是通过位于Gene_view选项卡上的“显示基因转录本”选项来访问的。在主面板的顶部是一个灰色框,列出了用于生成图像的样本。下拉菜单提供了选择已定义的转录本数据库(用户在设置选项卡上选择)的基因名称的能力。用户可以通过输入基因名称的一部分来选择基因名称。输入时要注意,基因名称是从服务器动态加载的,因此如果输入太快,基因将找不到。或者,可以通过选择Tabulated_Counts下生成的表中的相应行来选择基因。
一旦一个基因被选中,该基因的可视化就开始了视图的基因
按钮选中。Ularcirc将动态准备两个环路图和一个基因模型图像。
Ularcirc中的基因组标签提供了定义的基因组区域内的探索性分析。这对于探索存在于注释转录本区域之外的剪接连接特别有用。注意,Ularcirc从片连接文件中列出的所有标识条目中预填充染色体条目。用户无法看到没有剪接的染色体。开始和结束字段需要手动输入。最后用户必须选择正链或负链。记住,在不同的rna测序试剂盒中捕获的链是不同的。
要获得特定结(前向剪接或后向剪接)的详细信息,必须选择该结。控件后,可以选择拼接连接反拼接结计数数据
或规范结计数数据
.请注意,同一时间只能选择一个反拼接结和一个规范拼接结。与所选拼接和/或反拼接连接相关的许多特征被填充在结视图
选项卡。结视图选项卡的边栏菜单提供了一个选项,用于显示所选反拼接或规范结的信息。反向拼接或规范连接的序列包含.
连接外显子位置的字符结束如下图所示。Ularcirc还可以预测完整的环状rna序列,它是位于后剪接结边界内的最长外显子组合的连接。
对于后剪接连接,Ularcirc以开放阅读框(ORF)和microRNA结合位点分析的形式提供进一步的序列分析。这些分析的输出可以从侧栏选项卡中选择。ORF分析在主选项卡上以图形的形式显示最长的ORF(参见下图中的示例)。有选项,可以显示该ORF的氨基酸序列在侧面标签。
对于microRNA结合位点分析,Ularcirc可以分析预测的circRNA序列。默认情况下,Ularcirc搜索存在于circRNA中的互补的7nt miRNA种子序列。在下拉菜单中有增加或减少miRNA种子定义的选项。Ularcirc默认情况下只显示至少找到两次的miRNA绑定位点。这个阈值也可以通过下拉菜单进行修改,如下图所示。
sessionInfo ()
## R版本4.2.1(2022-06-23)##平台:x86_64-pc-linux-gnu(64位)##运行在Ubuntu 20.04.5 LTS ## ##矩阵产品:默认## BLAS: /home/biocbuild/bbs-3.16-bioc/R/lib/libRblas。/home/biocbuild/bbs-3.16-bioc/R/lib/libRlapack。所以## ## locale: ## [1] LC_CTYPE=en_US。UTF-8 LC_NUMERIC= c# # [3] LC_TIME=en_GB LC_COLLATE= c# # [5] LC_MONETARY=en_US。utf - 8 LC_MESSAGES = en_US。UTF-8 ## [7] LC_PAPER=en_US。UTF-8 LC_NAME= c# # [9] LC_ADDRESS=C lc_phone = c# # [11] LC_MEASUREMENT=en_US。UTF-8 LC_IDENTIFICATION=C ## ##附加的基本包:## [1]stats graphics grDevices utils datasets methods基础## ##其他附加包:## [1]knitr_1.40 BiocStyle_2.26.0 ## ##通过命名空间加载(且未附加):## [13] bslib_0.4.0 rmarkdown_2.17 tools_4.2.1 ## [19] fastmap_1.1.0 compiler_4.2.1 BiocManager_1.30.19 ## [22] htmltools_0.5.3 sass_0.4.2 # [4] jsonlite_1.8.3 magrittr_2.0.3 evaluate_0.17 ## [7] highr_0.9 stringi_1.7.8 cachem_1.0.6 ## [10] rlang_1.0.6 cli_3.4.1 jquerylib_0.1.4 ## [13] bslib_0.4.0 rmarkdown_2.17 tools_4.2.1 ## [16] string_1 .4.1 xfun_0.34 yaml_2.3.6 ## [22] htmltools_0.5.3 sass_0.4.2