内容

1介绍
2包安装
- 2.1先决条件
- 2.2安装和加载
3如何使用cbaf
- 3.1低级功能
- 3.2高级功能
  - 3.2.1之上processOneStudy ()
  - 3.2.2processMultipleStudies ()

1介绍

cbaf是一个Bioconductor包,便于处理的高通量数据存储http://www.cbioportal.org/。官方的凹口包是专为获取数据从cBioPortal R,cgdsr。与这个包获得数据,用户必须通过一个多步过程。此外,癌症的指数及其子组更改频繁,反过来,需要改变代码。cbaf使这个过程自动化RNA-Seq,microRNA-Seq,微阵列和甲基化数据。此外,比较基因数据跨多个癌症研究/子组的研究变得更快和更容易。结果被存储为excel文件(s)和多个热图。

2包安装

2.1先决条件

包本身不需要任何以外的R,但一个依赖包rjava需要一些先决条件。因为准备先决条件可能有时很复杂,他们在本节简要描述。

在一个32位windows,32位版本的Java运行时环境首先必须安装。在一个64位windows,强烈建议这两个32位和64位的版本Java运行时环境被安装。

在ubuntu在终端运行以下命令在指定的顺序:

sudo apt-get安装default-jdk sudo R CMD javareconf sudo apt-get安装r-cran-rjava sudo apt-get安装libgdal1-dev libproj-dev出口LD_LIBRARY_PATH = / usr / lib / jvm / jre / lib / amd64: / usr / lib / jvm / jre / lib / amd64 /违约sudo apt-get安装libcurl4-openssl-dev libssl-dev

2.2安装和加载

包装可以通过安装BiocManager:安装:

如果(!requireNamespace (“BiocManager”,悄悄地= TRUE)) install.packages (“BiocManager”) BiocManager::安装(“cbaf”,依赖= TRUE)

在那之后,可以加载到pachageR工作空间的

库(cbaf)

3如何使用cbaf

包包含七个低级功能:availableData (),obtainOneStudy (),obtainMultipleStudies (),automatedStatistics (),heatmapOutput (),xlsxOutput ()和cleanDatabase ()。

此外,还有两个高级功能,processOneStudy ()和processMultipleStudies ()提到,执行一些功能以有序的方式加快全面的过程。

建议用户只使用两个低级函数-availableData ()和cleanDatabase ()——直接,因为它们是独立的低级功能。接下来,请使用高级功能。这允许所有的功能和更高的效率。

3.1低级功能

3.1.1availableData ()

这个函数扫描所有的癌症研究的存在RNA-Seq,microRNA-Seq,微阵列和甲基化数据。它需要一个名称标签excel文件的输出。在接下来的例子中,输入名称“list.2017-11-05”。

availableData (“list.2017-11-05”)

完成后,输出excel文件访问当前目录(工作)。它包含不同的列:cancer_study_id cancer_study_name, RNA。Seq, microRNA。Seq,微阵列的信使rna, microrna的微阵列,甲基化和描述。

如果已经有一个excel文件名字的工作目录,功能打印一条消息,询问用户是否应该继续。如果答案是否定的,那么函数打印一个消息通知用户,它已经停止进一步的处理。是的,如果用户类型availableData ()将覆盖excel文件后获得所请求的数据。

3.1.2obtainOneStudy ()

这个函数获取并存储至少一组基因的支持数据跨多个癌症研究的子组。在addion,它可以检查是否所有的基因都包含在不同的癌症研究的子组,如果没有,寻找替代基因的名字。

它需要至少四个参数:

genesList一个列表,包含至少一个基因群。没有限制数量的基因群体,用户可以设置多达基因组他们的欲望。
submissionName感兴趣的,一个字符串,其中包含的名字。它是用于命名的过程。
studyName字符串显示所需的癌症的名字。这是一个标准的癌症研究的名字,在cbioportal.org上存在,如急性髓系白血病(TCGA NEJM 2013)。
desiredTechnique的五个支持高通量的研究:RNA-Seq,microRNA-Seq,microarray.mRNA,microarray.microRNA或甲基化。

功能还包含其他两个选项:

desiredCaseList数值向量包含索引所需的癌症的子组,如果用户知道指数所需的子组。如果不是,desiredCaseList必须设置为“没有”,函数将显示可用的子组要求用户输入所需的过程中。默认值是“没有”。
validateGenes一个逻辑值,如果设置真正的函数将检查每个癌症子群发现是否每个基因都有记录。如果该小组没有记录特定基因的功能检查替代基因名称cbioportal可能使用而不是给定的基因名称。

考虑下面的示例,其中基因包括两个基因群体K.demethylases K.acetyltransferases,submissionName是测试,cancername是乳腺浸润性癌(2015年,TCGA、细胞)和desiredTechnique是RNA-Seq。如果desired.case。列表= "没有"请求的癌症研究的所有子组出现在控制台,功能要求用户选择所需的子群的指数。Alterntively,用户可以输入需要的情况下,通过改变参数的索引desired.case。列表= "没有",如。desiredCaseList = c (2、3、4、5)。用户输入所需的子组后,继续通过数据和函数通知用户提供一个进度条。

< -基因列表(K.demethylases = c (“KDM1A”、“KDM1B”,“KDM2A”), K。乙酰转移酶= c(“钟”,“CREBBP”,“ELP3”、“EP300”)) obtainOneStudy(基因,“测试”,“乳腺浸润性癌(2015年,TCGA、细胞)”、“RNA-Seq”desiredCaseList = c (2、3、4、5))

# #当前schema_version 0.99.1是过时的。# # # #当前版本将不会工作。# #向最新schema_version推荐更新。# #显著变化:# # 1。Web资源的rpath的存储为相对路径# # 2。默认last_modified时间# #当地/亲戚/ nondownloaded / last_modified_notfound # # NA不是系统资源。# # 3。添加etag模式# # 4。添加失效模式

# #警告.sql_migration黄东海):BiocFileCache模式不更新# # bfccache (): / tmp / RtmpmkhSGu / Rinst72554f46947d / cbaf / extdata /测试

# #——“测试”和“test2”数据库包含示例数据,因此,没有变化。请使用一个不同的提交的名字。推荐- - - - - -

# #——“obtainOneStudy()函数的跳过:请求的数据已经存在- - - - - -

3.1.3obtainMultipleStudies ()

这个函数获取并存储至少一组支持数据跨多个癌基因研究。它可以检查是否所有的基因都包含在每个癌症研究,如果没有,它查找替代基因的名字。

它需要至少四个参数:

基因,一个列表,其中包含至少一组基因。没有限制数量的基因群体,用户可以设置多达基因组他们的欲望。
submissionName感兴趣的,一个字符串,其中包含的名字。它是用于命名的过程。
cancernames,一个特征向量或矩阵具有理想的癌症研究的名称。特征向量包含标准癌症的名字,可以在cbioportal.org上找到,等急性髓系白血病(TCGA NEJM 2013)。或者,可以使用矩阵如果用户喜欢定义的癌症的名字。在这种情况下,矩阵的第一列包含标准癌症名,而第二列必须包含所需的癌症的名字。
desiredTechnique的五个支持高通量的研究:RNA-Seq,microRNA-Seq,microarray.mRNA,microarray.microRNA或甲基化。

功能还包含其他两个选项:

cancerCode,如果真正的,将迫使该函数使用标准的名称而不是完整的癌症名称缩写癌症。例如,laml_tcga_pub缩短的名字吗急性髓系白血病(TCGA NEJM 2013)。
validateGenes,如果真正的,使函数来检查所有癌症研究找出哪些基因从输入数据是可用的。此外,功能检查替代基因名称cbioportal可能使用而不是给定的基因名称。

在接下来的例子中,基因包括两个基因群体K.demethylases K.acetyltransferases,submissionName是test2,cancername有五个癌症研究的完整名称和所需的高通量研究RNA-Seq。

< -基因列表(K.demethylases = c (“KDM1A”、“KDM1B”,“KDM2A”), K。乙酰转移酶= c(“钟”,“CREBBP”,“ELP3”、“EP300”)) #指定名称的癌症研究标准研究名cancernames < - c(“急性髓系白血病(TCGA,临时)”TCGA“肾上腺皮质癌(临时)”,"Bladder Urothelial Carcinoma (TCGA, Provisional)", "Brain Lower Grade Glioma (TCGA, Provisional)", "Breast Invasive Carcinoma (TCGA, Provisional)") # Specifying names of cancer studies by creating a matrix that includes standard and desired study names cancernames <- matrix(c("Acute Myeloid Leukemia (TCGA, Provisional)", "acute myeloid leukemia", "Adrenocortical Carcinoma (TCGA, Provisional)", "adrenocortical carcinoma", "Bladder Urothelial Carcinoma (TCGA, Provisional)", "bladder urothelial carcinoma", "Brain Lower Grade Glioma (TCGA, Provisional)", "brain lower grade glioma", "Breast Invasive Carcinoma (TCGA, Provisional)", "breast invasive carcinoma"), nrow = 5, ncol=2 , byrow = TRUE) obtainMultipleStudies(genes, "test2", cancernames, "RNA-Seq")

# #——“测试”和“test2”数据库包含示例数据,因此,没有变化。请使用一个不同的提交的名字。推荐- - - - - -

# #——“obtainMultipleStudies()函数的跳过:请求的数据已经存在- - - - - -

3.1.4automatedStatistics ()

函数计算得到的数据的统计obtainOneStudy ()或obtainMultipleStudies ()功能。根据用户的偏好,这些统计数据可以包括频率的百分比,频率比,平均值和中值大于特定值的样本。此外,它可以寻找基因组成的最高价值观每个癌症和列表5基因频率的百分比,平均值和中值。

它至少需要两个参数:

submissionName感兴趣的,一个字符串,其中包含的名字。用于命名的过程,应该submissionName一样的obtainOneStudy ()或obtainMultipleStudies ()功能。
obtainedDataType,一个标识字符串的输入数据的类型由前面的函数。两个选项可用:单一的研究为obtainOneStudy ()和多项研究为obtainMultipleStudies ()。这个函数使用obtainedDataType和submissionName构建BiocFileCach对象的名称,然后发现里面适当的数据。默认值是多项研究。

功能还包含其他四个选项:

计算一个特征向量,其中包含所需的统计程序。默认的输入是c (“frequencyPercentage”、“frequencyRatio”,“meanValue”)而完整的输入c (“frequencyPercentage”、“frequencyRatio”,“meanValue”、“medianValue”)。这将告诉函数来计算如下:
- frequencyPercentage,这是样本的百分比有危害性的特定截止除以总样本量为每个学习/研究小组
- 频率比,显示所选样本的数量除以总数量的样品给频率百分比。它显示了选择和总样本大小。
- 平均值,其中包含所选样本的平均值为每一个研究。
- 中值,这显示了所选样本的中值为每一个研究。
topGenes逻辑值,如果设置为TRUE,使函数来创建三个data.frame包含五大的为每一个癌症基因。获得所有三个data.frames,frequencyPercentage,meanValue和中位数一定是包括计算。
截止,用于限制样本数量大于这个数(截止)。0.6甲基化数据的默认值,使用默认值2基因表达研究。甲基化研究观察/预期比率休息,z分数。改变截止到任何所需的数量,改变选择截止= desiredNumberdesiredNumber是感兴趣的。
轮,一个逻辑值函数来计算所有值到两位小数。默认值是真正的。

在接下来的例子中,submissionName是测试,obtainedDataType是多项研究。我们排除平均值和中值从计算。注意上面这两个基因数据也将被忽略。

automatedStatistics(“测试”,obtainedDataType =“单一研究”,计算= c (“frequencyPercentage”、“frequencyRatio”))

# #——“测试”和“test2”数据库包含示例数据,因此,没有变化。请使用一个不同的提交的名字。推荐- - - - - -

# #——“automatedStatistics()函数的跳过:请求的数据已经存在- - - - - -

3.1.5heatmapOutput ()

这个函数准备的热图频率的百分比,平均值和中值提供的数据automatedStatistics ()函数。热图为每个基因组存储在单独的文件夹中。

它需要至少一个参数:

submissionName感兴趣的,一个字符串,其中包含的名字。用于命名的过程,应该submissionName一样的obtainOneStudy ()或obtainMultipleStudies ()功能。

功能还包含13个其他选项:

shortenStudyNames一个逻辑值,导致函数消除癌症的最后一部分旨在缩短他们的名字。删除部分通常包含科学组的名称进行了实验。
geneLimit如果大量的基因存在于至少一个基因群,这个选项可以用来限制基因的数量显示在热图。例如,geneLimit = 50将限制的热图50多个基因显示最变化研究/子组。默认值是假。
rankingMethod决定基因的方法将排名前画的热图。变异订单根据惟一的值在一个或几个的基因在癌症研究highValue排名cotain高值时的基因在多个/许多癌症研究。这个选项是有用的基因的数量太多,这样当用户有限制的基因数量的热图geneLimit。
heatmapFileFormat这个选项允许用户选择所需的图像文件格式的热图。默认值是“饮”。其他suppoeted格式包括“BMP”,“JPG”,“PNG”。
决议这个选项可以用来调整输出的分辨率的热图的点每英寸。defalut分辨率是600。
RowCex这个数字指定字母大小的热图行名称,范围从0到2。如果RowCex =“自动”,该函数将自动确定最佳RowCex。
ColCex这一数字指定字母大小的热图列名,范围从0到2。如果ColCex =“自动”,该函数将自动确定最佳ColCex。
heatmapMargines一个数值向量用于设置的热图利润率。如果heatmapMargines =“自动”,该函数将自动确定最佳可能的边缘。否则,如输入所需的限度。c (10,10)。
rowLabelsAngle很多决定基因名字的角的热图所示。默认值是0度。
columnLabelsAngle这个数字决定的角度研究/学习子组名称显示在热图。默认值为45度。
heatmapColor一个字符串定义的热图的颜色。默认值是“RdBu”。“RdGr”在基因组研究中也是一个受欢迎的颜色。看到其他的颜色,请类型库(RColorBrewer)然后display.brewer.all ()。
reverseColor一个逻辑值反转颜色梯度的热图(s)。
transposedHeatmap一个逻辑值转置的热图行,列,反之亦然。
simplifyBy这个数字告诉功能改变的值小于零。这种选择背后的目的是为了方便识别候选基因。因此,它并不适合出版物。有相同的单位截止。
genesToDrop一个特征向量。基因的名字在这个向量将省略的热图。默认值是假。

在接下来的例子中,submissionName是测试。

heatmapOutput(“测试”,shortenStudyNames = TRUE, heatmapMargines = c(13日5),heatmapColor =“RdGr genesToDrop = c (“PVT1”、“SNHG6”), reverseColor = FALSE, heatmapFileFormat =“JPG”)

如果所请求的热图已经存在,它不重写的热图。然后跳过的热图印刷的数量。

3.1.6xlsxOutput ()

这个函数出口的输出automatedStatistics ()和基因的验证其中一个的结果obtainOneStudy ()或obtainMultipleStudies ()作为一个excel文件。对于每一个基因群,excel文件将生成并存储在相同的文件夹的热图。

它需要一个参数:

submissionName感兴趣的,一个字符串,其中包含的名字。用于命名的过程,应该submissionName一样的obtainOneStudy ()或obtainMultipleStudies ()功能。

还有一个可选参数:

transposeResults,一个逻辑值替换输出的列和行。

在接下来的例子中,submissionName是测试。

xlsxOutput(“测试”)

如果所请求的excel文件已经存在,函数避免重写它们。然后打印跳过excel文件的数量。

3.1.7cleanDatabase ()

该函数删除cbaf包目录中创建的数据库。这可以帮助用户从cbioportal.org获取最新数据。

它包含一个可选参数:

数据库名一个特征向量,其中包含数据库的名字,将被删除。默认值在零。

在接下来的例子中,数据库名是Whole2。

cleanDatabase (“Whole2”)

如果数据库名离开unentered,函数将打印可用的数据库和允许用户选择想要的。

3.2高级功能

3.2.1之上processOneStudy ()

这个函数结合4提到的功能的易用性。建议用户只使用这个父函数来获取和处理基因数据跨多个癌症研究的部分,这样孩子函数使用效率最大化。processOneStudy ()使用以下功能:

obtainOneStudy ()
automatedStatistics ()
heatmapOutput ()
xlsxOutput ()

它需要至少四个参数。所有函数参数是一样的低级功能:

genesList一个列表,包含至少一个基因群。没有限制数量的基因群体,用户可以设置多达基因组他们的欲望。
submissionName感兴趣的,一个字符串,其中包含的名字。用于命名的过程,应该submissionName一样的obtainOneStudy ()或obtainMultipleStudies ()功能。
studyName字符串显示所需的癌症的名字。这是一个标准的癌症研究的名字,在cbioportal.org上存在,如急性髓系白血病(TCGA NEJM 2013)。
desiredTechnique的五个支持高通量的研究:RNA-Seq,microRNA-Seq,microarray.mRNA,microarray.microRNA或甲基化。

功能还包含19个其他选择:

desiredCaseList数值向量包含索引所需的癌症的子组,如果用户知道指数所需的子组。如果不是,desiredCaseList必须设置为“没有”,函数将显示可用的子组要求用户输入所需的过程中。默认值是“没有”。
validateGenes一个逻辑值,如果设置真正的函数将检查每个癌症子群发现是否每个基因都有记录。如果该小组没有记录特定基因的功能检查替代基因名称cbioportal可能使用而不是给定的基因名称。
计算一个特征向量,其中包含所需的统计程序。默认的输入c (“frequencyPercentage”、“frequencyRatio”,“meanValue”)。得到所有的数据,使用以下:c (“frequencyPercentage”、“frequencyRatio”,“meanValue”、“medianValue”)。
截止,用于限制样本数量大于这个数(截止)。0.6甲基化数据的默认值,使用默认值2基因表达研究。甲基化研究观察/预期比率休息,z分数。改变截止到任何所需的数量,改变选择截止= desiredNumberdesiredNumber是感兴趣的。
轮,一个逻辑值函数来计算所有值到两位小数。默认值是真正的。
topGenes逻辑值,如果设置为TRUE,使函数来创建三个data.frame包含五大的为每一个癌症基因。获得所有三个data.frames,frequencyPercentage,meanValue和中位数一定是包括计算。
shortenStudyNames一个逻辑值,导致函数消除癌症的最后一部分旨在缩短他们的名字。删除部分通常包含科学组的名称进行了实验。
geneLimit如果大量的基因存在于至少一个基因群,这个选项可以用来限制基因的数量显示在热图。例如,geneLimit = 50将限制的热图50多个基因显示最变化研究/子组。默认值是假。
rankingMethod决定基因的方法将排名前画的热图。变异订单根据惟一的值在一个或几个的基因在癌症研究highValue排名cotain高值时的基因在多个/许多癌症研究。这个选项是有用的基因的数量太多,这样当用户有限制的基因数量的热图geneLimit。
heatmapFileFormat这个选项允许用户选择所需的图像文件格式的热图。默认值是“饮”。其他suppoeted格式包括“BMP”,“JPG”,“PNG”。
决议这个选项可以用来调整输出的分辨率的热图的点每英寸。defalut分辨率是600。
RowCex这个数字指定字母大小的热图行名称,范围从0到2。如果RowCex =“自动”,该函数将自动确定最佳RowCex。
ColCex这一数字指定字母大小的热图列名,范围从0到2。如果ColCex =“自动”,该函数将自动确定最佳ColCex。
heatmapMargines一个数值向量用于设置的热图利润率。如果heatmapMargines =“自动”,该函数将自动确定最佳可能的边缘。否则,如输入所需的限度。c (10,10)。
rowLabelsAngle很多决定基因名字的角的热图所示。默认值是0度。
columnLabelsAngle这个数字决定的角度研究/学习子组名称显示在热图。默认值为45度。
heatmapColor一个字符串定义的热图的颜色。默认值是“RdBu”。“RdGr”在基因组研究中也是一个受欢迎的颜色。看到其他的颜色,请类型库(RColorBrewer)然后display.brewer.all ()。
reverseColor一个逻辑值反转颜色梯度的热图(s)。
transposedHeatmap一个逻辑值转置的热图行,列,反之亦然。
simplifyBy这个数字告诉功能改变的值小于零。这种选择背后的目的是为了方便识别候选基因。因此,它并不适合出版物。有相同的单位截止。
genesToDrop一个特征向量。基因的名字在这个向量将省略的热图。默认值是假。
transposeResults,一个逻辑值替换输出的列和行。

功能选项的更多信息,请参阅孩子他们对应的函数,例如genesList位于obtainMultipleStudies ()函数。下面是一个示例显示如何使用这个函数:

< -基因列表(K.demethylases = c (“KDM1A”、“KDM1B”,“KDM2A”,“KDM2B”,“KDM3A”,“KDM3B”,“JMJD1C”,“KDM4A”), K。甲基转移酶= c (“SUV39H1”、“SUV39H2”、“EHMT1”、“EHMT2”、“SETDB1”、“SETDB2”、“KMT2A”、“KMT2A”)) processOneStudy(基因,“测试”,“乳腺浸润性癌(2015年,TCGA、细胞)”“RNA-Seq”desiredCaseList = c(2、3、4、5),计算= c (“frequencyPercentage”、“frequencyRatio”), heatmapFileFormat =“TIFF”)

# #——“测试”和“test2”数据库包含示例数据,因此,没有变化。请使用一个不同的提交的名字。推荐- - - - - -

# #——“obtainOneStudy()函数的跳过:请求的数据已经存在- - - - - -

# #——“测试”和“test2”数据库包含示例数据,因此,没有变化。请使用一个不同的提交的名字。推荐- - - - - -

# #——“automatedStatistics()函数的跳过:请求的数据已经存在- - - - - -

# # * * *请求的热图准备测试* * *

# # | | | 0%

# # | | = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = | 50%

# # | | = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = | 100%

# # * * *准备请求的excel文件为测试* * * (s)

0% # # | | | | | = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = | 50% | | = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = | 100%

excel文件的输出和热图存储在单独的文件夹为每个基因组。最终,所有的文件夹都坐落在另一个文件夹,名称的组合submissionName多个研究和“输出”,例如“测试输出多个研究”。

3.2.2processMultipleStudies ()

这个函数结合上面提到的四个功能的易用性。建议用户只使用这个父函数来获取和处理基因数据跨多个癌症研究的最大效率。processMultipleStudies ()使用以下功能:

obtainMultipleStudies ()
automatedStatistics ()
heatmapOutput ()
xlsxOutput ()