内容

1简介

剪接是从新生的pre-mRNA转录本中去除内含子序列,从而形成成熟mRNA。剪接有许多机制,是一个通常涉及多个rna结合蛋白的调节过程。在真核生物中,剪接可导致基因异构体、多顺子转录本、基因融合和环状RNA (circRNA)。

rna测序可以捕捉到剪接的复杂性。Ularcirc采用由各种程序(STAR aligner, Regtools, circExplorer2, CIRI2)生成的标准正向切片结(FSJ)和反向拼接结(BSJ)输出,并提供了一个平台来集成和分析这些数据集。Ularcirc为前向规范剪接(由成熟mrna生成)和后向剪接(由环状rna生成)提供了可视化和分析工具。Ularcirc动态生成可视化,包括在基因位点内缩放定义区域的能力,并且还可以提取跨越特定外显子连接的转录序列。

理论上Ularcirc可以在任何能够运行r编程语言的硬件上运行。所有操作都通过菜单驱动的交互式分析实时进行,其中数据表和可视化是动态生成的。Ularcirc不需要大量的计算资源,目前实现在一个CPU线程上操作。保存的项目数据集很小(通常在低MB范围内),因此可以轻松共享数据文件。关于如何使用Ularcirc的入门教程可以在youtube上找到。

Ularcirc由由主面板和侧面板组成的众多互动屏幕组成。主面板允许从四个有标题的选项卡中选择一个设置项目Gene_ViewGenome_ViewJunction_View.每个主面板都有一个不同的侧面板,并显示有助于指导和组合分析的特定选项。主面板将显示与本插图详细描述的circRNA分析的每个阶段相关的输出。用户应该意识到一些分析可能需要时间才能完成,浮动状态条将通知进度。结束\{文摘}

2快速入门

下面演示如何下载Ularcirc,安装所需的数据库,然后可视化基因Slc8a1的规范和反剪接连接计数。

STEP1:安装Ularcirc包

如果(!requireNamespace("BiocManager", quiet =TRUE)) install.packages("BiocManager")

STEP2:加载注释数据库:Ularcirc提供了一个与hg38对齐的现有数据集。虽然识别环状rna不需要注释,但我们建议下载相应的人工注释数据库,如下所示:

如果(!requireNamespace("BiocManager", quiet =TRUE)) install.packages("BiocManager") \dontrun {BiocManager::install(c(" bsgenome . hspiens . ucsc . "hg38”,#基因组;txdb . hspapiens . ucsc .hg38。knownGene", #转录数据库"org.Hs.eg.db"))) #注释数据库}

启动Ularcirc,加载注释数据库,加载项目数据

库(Ularcirc) Ularcirc ()

如果注释+转录本+基因组数据库已加载加载转录本数据库它们应该自动填充在左侧面板上(如图所示)1.新闻加载转录本数据库在这个按钮下面会出现文本Hsapiens.UCSC.hg38

Ularcirc可用注释的截图

图1:Ularcirc可用注释的截图

预加载的数据集称为TwoSzabo,它是通过Project选项卡加载的。加载时,弹出窗口将显示关联元数据(包含信息供您参考)。点击窗口外的任何地方关闭它。下面应该出现两个数据文件选择的样本而且分组分析主标签上的标题。

目的:

导航到Gene_View选项卡。TwoSzabo数据集包含两个BSJ数据源和一个FSJ数据源。BSJ数据是从STAR Chimeric输出连接文件或circExplorer2生成的。下面有一个单选按钮BSJ数据源这允许您选择希望分析的数据集。在分析任何BSJ之前,您都需要组装整理好的BSJ数据表。要为circExplorer2数据执行此操作,请确保选中circExplorer2单选按钮,然后按下建立表在左手面板下面表显示选项.对于STAR衍生BSJ数据,选择STAR单选按钮,然后选择用亲本基因注释如图所示2.对于STAR BSJ数据,您需要通过选择下面的数字来选择您希望识别的BSJ数量要显示的BS连接数(即数字越高,组装所需的时间就越长。注意在这个过程中BSJ最丰富)。下一个选择建立表然后Ularcirc将构建一个带有注释的背香料连接计数表。

Ularcirc基因视图标签的截图。

图2:Ularcirc基因视图标签的截图

选择表中的第一个条目(它将以蓝色突出显示)。下一个选择Display_Gene_Transcripts从左边标签下的标题显示模式.这将动态生成具有后剪接和规范前剪接连接的Slc8a1的可视化。

Slc8a1反向剪接和规范剪接的截图。

图3:Slc8a1反向剪接和规范剪接的截图

视图这段5分钟的截屏这将涵盖以上几点和更多。

3.准备输入数据集

3.1拼接连接文件

Ularcirc需要由STAR对齐器生成的规范和嵌合拼接连接输出文件,它们必须分别包含SJ.out.tab和chimic .out.junction的默认文件扩展名。有关如何使用STAR对齐器的详细说明,请阅读明星手册.请注意,STAR对齐器需要大量的计算资源。如果您无法访问其他高性能计算资源,可以使用公开的GALAXY资源来运行STARhttps://usegalaxy.org).要生成所需的嵌合结文件,必须向STAR校准器提供以下两个参数。为每个参数提供的数值描述了用于检测嵌合读取的特征,因此可能需要更改以提高灵敏度和准确性。

——chimSegmentMin 15——chimJunctionOverhangMin 15

Ularcirc只能通过一次上传向单个项目添加文件。尝试多次上传只会导致以前的上传被当前上传覆盖。单个或多个示例由一个公共的文件前缀标识。因此,对于一个给定的项目,所有的拼接连接文件必须位于一个公共目录中,并具有适当的文件前缀。例如,如果将以下文件上传到Ularcirc:

SRR12345678_e17.5_heart.Chimeric.out。结SRR12345678_e17.5_heart.SJ.out。选项卡SRR87654321_P10_heart.Chimeric.out。结SRR87654321_P10_heart.SJ.out。tab

上面的示例将导致两个示例id被导入Ularcirc, SRR123456768_e17.5_heart和SRR87654321_P10_heart。强烈建议提供一个描述性的名称,因为Ularcirc目前不提供重命名示例的功能。上传文件后,可以输入并保存项目文件名。可以指示STAR对齐器为输出文件分配一个公共前缀。这可以通过以下选项指定:

——outFileNamePrefix Type_your_prefix_here

3.2注释数据库

Ularcirc可以通过集成生物导体数据库注释反剪接和规范剪接。每个生物需要三个安装,下面显示了最新的人类和小鼠所需的数据集示例。

数据库类型 hg38的数据库名称
BSGenome BSgenome.Hsapiens.UCSC.hg38
TxDb TxDb.Hsapiens.UCSC.hg38.knownGene
OrgDatabase org.Hs.eg.db
数据库类型 mm10的数据库名称
BSGenome BSgenome.Mmusculus.UCSC.mm10
TxDb TxDb.Mmusculus.UCSC.mm10.knownGene
OrgDatabase org.Mm.eg.db

4工作流

Ularcirc的设计遵循一个逻辑系统的工作流,该工作流被分解为五个关键步骤。每个步骤都可以通过一个选项卡来执行,可以通过主面板进行选择,如图所示。工作流从最左边的选项卡(设置)开始,这是显示的初始屏幕。设置选项卡还提供了简要描述工作流程的快速入门指南。本章提供了这些步骤的更深入的概述,鼓励用户熟悉本章的内容,以充分利用Ularcirc。

4.1步骤1a:加载注释数据

启动后,Ularcirc加载并显示内容设置主面板中的选项卡。侧板可以配置为三个选项之一,这是通过下拉菜单下选择步配置.默认配置是加载转录数据库,它可以通过标题下的单独下拉菜单选择生物、基因组和转录组数据库生物.如果三个下拉菜单没有填充,这表明数据库还没有从bioconductor安装。

4.2步骤1b:设置过滤器

4.2.1基因组的过滤器

Ularcirc提供了基因组过滤选项和环状rna过滤选项。基因组过滤提供了限制嵌合(BSJ)检测到定义的基因组距离/位置的选项。默认限制旨在捕获大多数哺乳动物环状rna。然而,这些限制可以放宽,这将增加嵌合候选者的数量和潜在的假阳性。下面是基因组过滤器的描述:

过滤器 描述
相同的染色体 选中此复选框将只选择跨越共同染色体的嵌合读。
嵌合基因组距离 这是在同一染色体上鉴定的嵌合连接所考虑的最大和最小嵌合距离。默认设置将不会检测跨越小于200nt或大于100000nt的嵌合结。
相同的链 只会选择来自同一链的嵌合连接。

4.2.2circRNA过滤器

设计了两个circRNA过滤器来区分假阳性和真阳性。第一个过滤器是读对齐分布(RAD)评分,即II型和III型对齐的比率。它只能对成对的末端测序数据进行计算,并且只能应用于具有合理深度的BSJ(如> 9)。

第二个筛选器被调用FSJ支持它可以识别每个BSJ坐标是否也用于FSJ。假设有两个坐标定义BSJ,相应的FSJ支持度量值可以是0,1或2。FSJ支持分数可以为所有BSJ计算,而不考虑读计数。

Ularcirc提供了针对RAD和FSJ支持度量的预定义值筛选BSJ的功能。在选择DisplayFilterOptions复选框后,可以在基因选项卡下修改默认阈值(见下图)

4.3步骤1c:加载新的数据集

Ularcirc要求可以从以下程序生成的输出文件:STAR aligner, circExplorer2, CIRI2, regtools。为实现完整功能,每个样本至少加载一个FSJ、一个BSJ和一个基因计数数据集。STAR对齐器生成FSJ、BSJ和基因计数输出文件,这些文件具有以下预设的文件扩展名:SJ.out.tab (FSJ)、chimic .out.junction(嵌合连接)和ReadsPerGene.tab.out(基因计数)。CircExplorer2和CIRI2输出文件必须具有文件扩展名ce而且ciri一半。

每个样本的输入文件的前缀都是通用的,这一点非常重要(示例如下所示)。要上传文件,用户必须导航到安装选项卡选择上传新数据然后选择浏览在标题下上传输入数据文件.在文件上传之前,一些基因组过滤配置选项是可用的。默认过滤器要求嵌合排列存在于同一染色体的同一链上,嵌合连接发生在小于10万个核苷酸的距离上。这些值可以通过屏幕上显示的交互选项进行调整。目前还没有为规范拼接连接实现过滤器,Ularcirc将利用来自输入FSJ文件的所有信息。对于STAR FSJ文件,Ularcirc只使用唯一的对齐计数。

多个样本可以上传到Ularcirc,但这只能在一个上传事件中完成。因此,所有文件都必须驻留在一个公共目录中,这样它们都可以被选择上传。尝试单独上传文件只会导致以前的上传被当前上传覆盖。在上传过程中,Ularcirc显示一个状态选项卡,通知进度。用户将收到Ularcirc无法识别的任何文件(即文件扩展名不正确)的通知。在多文件上传过程中,示例由一个公共文件前缀标识。例如,如果将以下文件上传到Ularcirc

SRR12345678_e17.5_heart.Chimeric.out。结SRR12345678_e17.5_heart.SJ.out。选项卡SRR12345678_e17.5_heart.ReadsPerGene.tab。SRR12345678_e17.5_heart。ceSRR87654321_P10_heart.Chimeric.out.junction SRR87654321_P10_heart.SJ.out.tab SRR87654321_P10_heart.ReadsPerGene.tab.out SRR87654321_P10_heart.ce

上面的示例将导致两个示例id被导入Ularcirc, SRR123456768_e17.5_heart和SRR87654321_P10_heart。每个样本将包含四个数据集(一个FSJ,一个基因计数和两个BSJ数据文件),每个数据集将在Ularcirc中通过这些名称引用。强烈建议在保存为Ularcirc时提供一个描述性的项目名称,此时Ularcirc不提供重命名示例的功能。

上传文件后,可以输入并保存项目文件名(请参阅Step2保存/加载项目)。

4.4步骤2a:保存/加载项目并对样本进行分组

可以通过Projects选项卡保存或加载新数据集或现有项目数据集。通过Ularcirc加载的数据集可以保存为项目文件,然后可以在以后的日期重新加载。项目应该保存在本地文件系统中存在的普通文件夹/目录中。这个文件夹/目录定义在projects选项卡主页的顶部。这个目录不应该设置为R Ularcirc库目录,因为未来的任何升级都会覆盖现有的文件。

RNA-Seq库准备试剂盒有大量的选择。用户应注意图书馆准备包是否滞留或未滞留。链RNA- seq试剂盒要么复制与RNA相同或相反链的cDNA。例如,Illumina TruSeq链RNA-seq库准备试剂盒生产与RNA链相反的cDNA。Ularcirc需要知道这些信息才能正确地构建表和组装序列。用户将此信息提供给Ularcirc项目选项卡在标题下图书馆准备在左边栏。

工作目录中所有已保存的项目都将在侧边栏“Load”标题下的下拉菜单中列出。请注意,在当前Ularcirc会话中加载的任何新数据集在重新启动Ularcirc之前都是不可见的。要加载选择项目名称并按load。当在主选项卡上列出示例名称时,将加载数据。

要保存一个项目,必须在条目下的侧边栏中输入唯一的项目名称项目名称然后按下保存按钮。Ularcirc不会覆盖现有的项目文件,如果输入的名称不是唯一的,会警告用户。

4.5步骤2b:样本分组

在加载项目文件或上传新的连接数据后,相关的示例id将在主选项卡上的两个位置以复选框的形式列出。这两个列表被称为“选定的样本”和“数据分组”,并为执行下游分析的方式提供了灵活性。

下面是第一个列表选择的样本为用户提供分析要分析的特定数据集的子集的选项。此选项有助于探索项目中可用的单个数据集中的circRNA表达模式。在此列表中选择的数据集是唯一有助于Gene_View选项卡下的集成基因组可视化的样本。在此列表中删除的数据集可用于通过Gene_View选项卡选择“Selected Samples”对反拼接结计数进行制表。

标题下提供了第二个示例id清单分组分析数据集。在这里,用户可以将样本分配给特定的群体,这对于整个项目的分析非常有用。组的数量在侧栏中定义,范围在1到10之间。在定义了组的数量后,可以通过主面板将单个样本分配给一个组。在这个列表中选择的样本可以通过Gene_View选项卡下的“分组分析”进行分析。

4.6步骤3a:生成BSJ计数

Gene_view选项卡是结果表和数据可视化发生的位置。有两种显示模式可供选择显示基因转录本而且列表项可以在侧边栏中进行选择。“表格计数”提供了对反向拼接连接的实时整理、注释和分析。上定义的数据集项目TAB被称为分组分析选择的样本在标题要分析的数据集

Ularcirc提供了许多被合并到表中的注释选项。第一个注释选项是显示父母成绩单%.这种注释是最消耗CPU的操作,因为Ularcirc计算了不同基因特征之间的平均前向剪接连接(FSJ)。这包括计算BSJ边界内的平均FSJ计数,跨亲本基因的平均FSJ计数,以及BSJ边界外的平均FSJ计数。

读取对齐分布(RAD)注释提供了一个评分指标,用于帮助评估BSJ是否可能是假阳性。此分数只能从成对的结束读计算,并反映从一个读对捕获BSJ的对齐比例。我们将在主读取中捕获BSJ的对齐定义为Type II,在配对读取中检测到的BSJ定义为Type III。0.5的值反映了BSJ在II型和III型对齐中检测到的比例相等。默认设置是接受RAD分数在0.05到0.95之间的所有BSJ,并且在所有组装的表中自动填充这个分数。的应用RAD过滤器check选项提供了一个快速选项来禁用bsj的RAD评分过滤。

Ularcirc会自动为所有条目标注重叠亲本基因的基因名。Ularcirc不基于任何亲本基因过滤器(如外显子边界)来过滤BSJ。如果一个BSJ与两个基因重叠,则两个基因条目都将被填充到最终表中。不与已知基因重叠的BSJ被填充未知的

生成的表提供了选择单个拼接连接(FSJ和BSJ)的功能。通过选择一个表行,将启动Ularcirc以显示该基因条目并以颜色突出显示特定的连接。它还在“Junction_View”选项卡中启动要分析的连接。

4.7步骤3b:可视化基因剪接模式

Ularcirc动态生成集成了后向剪接的前向剪接的可视化。这个功能是通过位于Gene_view选项卡上的“显示基因转录本”选项来访问的。在主面板的顶部是一个灰色框,列出了用于生成图像的样本。下拉菜单提供了选择已定义的转录本数据库(用户在设置选项卡上选择)的基因名称的能力。用户可以通过输入基因名称的一部分来选择基因名称。输入时要注意,基因名称是从服务器动态加载的,因此如果输入太快,基因将找不到。或者,可以通过选择Tabulated_Counts下生成的表中的相应行来选择基因。

一旦一个基因被选中,该基因的可视化就开始了视图的基因按钮选中。Ularcirc将动态准备两个环路图和一个基因模型图像。

4.8探索任何基因组区域的切片模式

Ularcirc中的基因组标签提供了定义的基因组区域内的探索性分析。这对于探索存在于注释转录本区域之外的剪接连接特别有用。注意,Ularcirc从片连接文件中列出的所有标识条目中预填充染色体条目。用户无法看到没有剪接的染色体。开始和结束字段需要手动输入。最后用户必须选择正链或负链。记住,在不同的rna测序试剂盒中捕获的链是不同的。

4.9步骤5:拼接/反拼接的序列分析

要获得特定结(前向剪接或后向剪接)的详细信息,必须选择该结。控件后,可以选择拼接连接反拼接结计数数据规范结计数数据.请注意,同一时间只能选择一个反拼接结和一个规范拼接结。与所选拼接和/或反拼接连接相关的许多特征被填充在结视图选项卡。结视图选项卡的边栏菜单提供了一个选项,用于显示所选反拼接或规范结的信息。反向拼接或规范连接的序列包含连接外显子位置的字符结束如下图所示。Ularcirc还可以预测完整的环状rna序列,它是位于后剪接结边界内的最长外显子组合的连接。

Ularcirc Junction视图选项卡,显示Slc8a1的反拼接结。注意。字符定义拼接连接

Ularcirc Junction视图选项卡显示Slc8a1的反拼接结。注意。字符定义拼接连接

对于后剪接连接,Ularcirc以开放阅读框(ORF)和microRNA结合位点分析的形式提供进一步的序列分析。这些分析的输出可以从侧栏选项卡中选择。ORF分析在主选项卡上以图形的形式显示最长的ORF(参见下图中的示例)。有选项,可以显示该ORF的氨基酸序列在侧面标签。

Ularcirc Junction视图选项卡显示Slc8a1内的潜在ORF

Ularcirc Junction视图选项卡显示Slc8a1内的潜在ORF

对于microRNA结合位点分析,Ularcirc可以分析预测的circRNA序列。默认情况下,Ularcirc搜索存在于circRNA中的互补的7nt miRNA种子序列。在下拉菜单中有增加或减少miRNA种子定义的选项。Ularcirc默认情况下只显示至少找到两次的miRNA绑定位点。这个阈值也可以通过下拉菜单进行修改,如下图所示。

Ularcirc Junction视图标签显示位于Slc8a1内的潜在miRNA结合位点

(#图:HG38Slc8a1_miRNA)Ularcirc Junction视图标签显示位于Slc8a1内的潜在miRNA结合位点

5会话信息 ———————————–

sessionInfo ()
## R版本4.2.1(2022-06-23)##平台:x86_64-pc-linux-gnu(64位)##运行在Ubuntu 20.04.5 LTS ## ##矩阵产品:默认## BLAS: /home/biocbuild/bbs-3.16-bioc/R/lib/libRblas。/home/biocbuild/bbs-3.16-bioc/R/lib/libRlapack。所以## ## locale: ## [1] LC_CTYPE=en_US。UTF-8 LC_NUMERIC= c# # [3] LC_TIME=en_GB LC_COLLATE= c# # [5] LC_MONETARY=en_US。utf - 8 LC_MESSAGES = en_US。UTF-8 ## [7] LC_PAPER=en_US。UTF-8 LC_NAME= c# # [9] LC_ADDRESS=C lc_phone = c# # [11] LC_MEASUREMENT=en_US。UTF-8 LC_IDENTIFICATION=C ## ##附加的基本包:## [1]stats graphics grDevices utils datasets methods基础## ##其他附加包:## [1]knitr_1.40 BiocStyle_2.26.0 ## ##通过命名空间加载(且未附加):## [13] bslib_0.4.0 rmarkdown_2.17 tools_4.2.1 ## [19] fastmap_1.1.0 compiler_4.2.1 BiocManager_1.30.19 ## [22] htmltools_0.5.3 sass_0.4.2 # [4] jsonlite_1.8.3 magrittr_2.0.3 evaluate_0.17 ## [7] highr_0.9 stringi_1.7.8 cachem_1.0.6 ## [10] rlang_1.0.6 cli_3.4.1 jquerylib_0.1.4 ## [13] bslib_0.4.0 rmarkdown_2.17 tools_4.2.1 ## [16] string_1 .4.1 xfun_0.34 yaml_2.3.6 ## [22] htmltools_0.5.3 sass_0.4.2