1介绍

1.1HPA项目

人类蛋白质图谱(Uhlen et al . 2005;Uhlen et al . 2010年)网站:

瑞典人类蛋白质图谱计划资助的克努特和爱丽丝•瓦伦堡基础上,建立了以允许系统使用基于抗体的蛋白质组学探索人类蛋白质组。这是通过结合高通量代affinity-purified抗体与蛋白质分析多种组织和细胞聚集在组织微阵列。共焦显微镜使用人类细胞系进行更详细的分析蛋白质的本地化。节目主持人人类蛋白质图谱门户与人类组织和细胞中蛋白质的表达谱。

hpar包提供了访问HPA R的数据接口。它还分配以下数据集:

  • hpaNormalTissue正常组织的数据:蛋白质表达谱的人体组织基于immunohistochemisty使用组织微阵列。逗号分隔文件包括运用基因标识符(“基因”),组织名称(“组织”),带注释的细胞类型(“细胞”),表达式的值(水平),注释的类型(带注释的蛋白质表达(猿),基于多个抗体,或染色,仅基于一个抗体)(“表达式类型”)和可靠性或验证表达式的值(“可靠性”)。}

  • hpaCancer癌症肿瘤数据:蛋白质染色概要文件在人类肿瘤组织基于immunohistochemisty使用组织微阵列。逗号分隔文件包括运用基因标识符(“基因”),肿瘤的名字(“肿瘤”),染色值(水平),染色的染色剂的病人数量值(“病人”),患者对于这个肿瘤类型的总量(总病人)和注释染色的类型(“表达式类型”)。}

  • rnaGeneTissueRNA基因数据45:RNA水平基于RNA-seq细胞系和32个组织。逗号分隔文件包括运用基因标识符(“基因”),分析了样本(样本),每千碱基片段记录每百万碎片映射(“价值”和“单位”),和丰富的类(“丰富”)。}

  • rnaGeneCellLineRNA基因数据45:RNA水平基于RNA-seq细胞系和32个组织。逗号分隔文件包括运用基因标识符(“基因”),分析了样本(样本),每千碱基片段记录每百万碎片映射(“价值”和“单位”),和丰富的类(“丰富”)。}

  • hpaSubcellularLoc亚细胞位置数据:蛋白质的亚细胞定位基于immunofluorescently染色细胞。逗号分隔文件包括运用基因标识符(“基因”),主要蛋白质的亚细胞位置(“主要位置”),其他地点(“其他地方”),注释的类型(带注释的蛋白质表达(猿),基于多个抗体,或染色,仅基于一个抗体)(“表达式类型”)和可靠性或验证表达式的值(“可靠性”)。}

  • hpaSubcellularLoc14* 16.1:同上,14日和16.1版。

1.2HPA数据使用政策

使用数据和图像HPA的出版物和报告是允许的:只要满足下列条件:

  • 出版和/或报告仅为信息和非商业用途。
  • 数据和/或图像的来源被称为下丘脑的网站1www.proteinatlas.org我们的出版物和/或一个或多个引用。

1.3安装

hpar可以通过Bioconductor项目。关于包装的细节,可以发现在其安装过程着陆页。使用专用Bioconductor基础设施安装,运行:

# #安装BiocManager只有一个install.packages (BiocManager) # #安装hpar BiocManager::安装(“hpar”)

安装后,hpar必须显式地加载

库(“hpar”)
# #这是1.26.0 hpar版本,基于人类的蛋白质图谱# # # #版本:18.1 # #发布数据:2018.11.15 # #运用构建:88.38 # #看到的吗?hpar’或‘小插图(hpar)的详情。

所有包的功能和数据给用户。

2hpar

2.1数据集

上述数据集可以被加载数据函数,如下图所示hpaNormalTissue在下面。每个数据集都是一个data.frame并使用标准的R功能可以很容易地操纵。下面的代码块显示出了它的一些性质。

数据(hpaNormalTissue)暗(hpaNormalTissue)
# # [1]1053330 6
名(hpaNormalTissue)
# #[1]“基因”“组织”“Gene.name细胞。类型”“水平”# #[6]“可靠性”
# #的基因长度(独特(hpaNormalTissue基因美元))
# # 13206年[1]
# #的细胞类型长度(独特(hpaNormalTissue Cell.type美元))
# # 82年[1]
头(水平(hpaNormalTissue Cell.type美元))
# #[1]“组织”“胆管细胞”# #[3]“前细胞”“细胞皮层/髓质”# #[5]“表皮细胞”“子宫内膜基质细胞”
# #组织长度的数量(独特(hpaNormalTissue组织)美元)
# #[1]58岁
头(水平(hpaNormalTissue组织美元))
# #[1]“肾上腺”“附录”“骨髓”“乳房”# #[5]“支气管”“尾”

2.2HPA接口

HPA包提供了一个接口的数据。的getHpa允许查询上述数据集。这需要三个参数,id,hpadata类型控制查询,数据集分别审问和如何报告结果。HPA数据使用标识符和运用基因id必须是一个有效的标识符。hpadata必须是一个可用的数据集。类型可以是“数据”“细节”。前者是默认并返回data.frame包含相关的信息id。还可以获得详细的信息,(包括细胞图像)作为web页面,直接从HPA web页面,使用“细节”

我们将说明此功能使用TSPAN6 (tetraspanin 6)基因(ENSG00000000003)为例。

id < -“ENSG00000000003”头(getHpa (id、hpadata =“hpaNormalTissue”))
# #基因Gene.name组织细胞。类型Level ## 1 ENSG00000000003 TSPAN6 adrenal gland glandular cells Not detected ## 2 ENSG00000000003 TSPAN6 appendix glandular cells Medium ## 3 ENSG00000000003 TSPAN6 appendix lymphoid tissue Not detected ## 4 ENSG00000000003 TSPAN6 bone marrow hematopoietic cells Not detected ## 5 ENSG00000000003 TSPAN6 breast adipocytes Not detected ## 6 ENSG00000000003 TSPAN6 breast glandular cells High ## Reliability ## 1 Approved ## 2 Approved ## 3 Approved ## 4 Approved ## 5 Approved ## 6 Approved
getHpa (id、hpadata =“hpaSubcellularLoc”)
# #基因Gene.name可靠性增强支持通过# # 1 ENSG00000000003 TSPAN6批准细胞溶质# #不确定Single.cell.variation.intensity Single.cell.variation。空间# # 1 # # Cell.cycle.dependency走。id # # 1细胞溶质(:0005829)
头(getHpa (id、hpadata =“rnaGeneCellLine”))
# # 1 # #基因Gene.name样品单价ENSG00000000003 TSPAN6 27.8 - 431 TPM # # 2 ENSG00000000003 TSPAN6 A549 37.6 TPM # # 3 ENSG00000000003 TSPAN6 AF22 108.1 TPM # # 4 ENSG00000000003 TSPAN6 AN3-CA 51.8 TPM # # 5 ENSG00000000003 TSPAN6 ASC diff 32.3 TPM # # 6 ENSG00000000003 TSPAN6 ASC TERT1 17.7 TPM

如果我们要求“细节”,浏览器页面指向相关的页面是开放的(见下图)

getHpa (id类型=“细节”)
HPA网页tetraspanin 6基因(ENSG00000000003)。

HPA网页tetraspanin 6基因(ENSG00000000003)。

如果用户有兴趣专门在一个数据集,可以设置hpadata在全球范围内,忽略它getHpa。这是通过设置来完成的hpar选项hpardatasetHparOptions函数。当前默认数据集可以进行测试getHparOptions

getHparOptions ()
# # # # $ hpar hpar hpadata # #美元[1]“hpaNormalTissue”
setHparOptions (hpadata =“hpaSubcellularLoc”) getHparOptions ()
# # # # $ hpar hpar hpadata # #美元[1]“hpaSubcellularLoc”
getHpa (id)
# #基因Gene.name可靠性增强支持通过# # 1 ENSG00000000003 TSPAN6批准细胞溶质# #不确定Single.cell.variation.intensity Single.cell.variation。空间# # 1 # # Cell.cycle.dependency走。id # # 1细胞溶质(:0005829)

2.3HPA发布信息

下丘脑释放的信息用于构建安装

hpar包可以访问getHpaVersion,getHpaDategetHpaEnsembl。完整的版本可以找到的细节HPA版本历史页面。

getHpaVersion ()
# # # #版本“18.1”
getHpaDate ()
# # # #日期“2018.11.15”
getHpaEnsembl ()
# # # #运用“88.38”

3一个小的用例

让我们来比较一下亚细胞定位注释从HPA获得亚细胞位置数据集和Bioconductor注释包中可用的信息。

id < -“ENSG00000001460”getHpa (id、“hpaSubcellularLoc”)
# #基因Gene.name可靠性增强支持通过# # 8 ENSG00000001460 STPG1批准核浆# #不确定Single.cell.variation.intensity Single.cell.variation。空间# # 8 # # Cell.cycle.dependency走。id # # 8核浆(去:0005654)

下面,我们首先提取细胞组件可用idorg.Hs.eg.db人类使用注释,然后检索他们的术语定义GO.db数据库。

库(org.Hs.eg.db)图书馆(“GO.db”)答< -选择(org.Hs.eg。db、键= id列= c(“运用”、“走”、“本体论”),keytype =“运用”)
# #的选择()返回1:许多钥匙和列之间的映射
ans < - ans (ans本体美元= =“CC”]答
# #运用证据本体# # 2 ENSG00000001460: 0005634 IEA CC # # 3 ENSG00000001460去:0005739 IEA CC
酸式焦磷酸钠(as.list (GOTERM [ans美元去]),槽,“术语”)
# #:0005634:0005634 # #“核”“线粒体”

会话信息

# # R版本3.6.0(2019-04-26)# #平台:x86_64-pc-linux-gnu(64位)# #下运行:Ubuntu 18.04.2 LTS # # # #矩阵产品:默认# #布拉斯特区:/home/biocbuild/bbs - 3.9 - bioc / R / lib / libRblas。所以# # LAPACK: /home/biocbuild/bbs - 3.9 - bioc / R / lib / libRlapack。# # # #语言环境:# # [1]LC_CTYPE = en_US。utf - 8 LC_NUMERIC = C # #[3]而= en_US。utf - 8 LC_COLLATE = C # # [5] LC_MONETARY = en_US。utf - 8 LC_MESSAGES = en_US。utf - 8 # # [7] LC_PAPER = en_US。utf - 8 LC_NAME = C # # [9] LC_ADDRESS C = C LC_TELEPHONE = # # [11] LC_MEASUREMENT = en_US。utf - 8 LC_IDENTIFICATION = C附加基本包:# # # # # #[1]平行stats4统计图形grDevices跑龙套数据集# #[8]方法基础# # # #其他附加包:# # [1]hpar_1.26.0 GO.db_3.8.2 org.Hs.eg.db_3.8.2 # # [4] AnnotationDbi_1.46.0 IRanges_2.18.0 S4Vectors_0.22.0 # # [7] Biobase_2.44.0 BiocGenerics_0.30.0 BiocStyle_2.12.0 # # # #通过加载一个名称空间(而不是附加):# # [1]Rcpp_1.0.1 knitr_1.22 magrittr_1.5 # # [4] bit_1.1-14 stringr_1.4.0 blob_1.1.1 # # [7] tools_3.6.0 xfun_0.6 DBI_1.0.0 # # [10] htmltools_0.3.6 yaml_2.2.0 bit64_0.9-7 # # [13] digest_0.6.18 bookdown_0.9 BiocManager_1.30.4 # # [16] memoise_1.1.0 evaluate_0.13 RSQLite_2.1.1 # # [19] rmarkdown_1.12 stringi_1.4.3 compiler_3.6.0 # # [22] pkgconfig_2.0.2

每Oksvold Uhlen、马赛厄斯,林恩Fagerberg,艾玛·Lundberg Kalle约,这张Forsberg,马丁•Zwahlen et al . 2010。“向以知识为基础的人类蛋白质图谱”。自然生物技术28 (12)。自然出版集团、麦克米伦出版社有限公司的一个部门。版权所有:1248 - 50。https://doi.org/10.1038/nbt1210 - 1248

Uhlen马赛厄斯,Erik Bjorling夏洛Agaton,并且愿意采纳这位克里斯蒂娜•a . Szigyarto Bahram Amini, Elisabet安徒生,Ann-Catrin c·安德森,等。2005。“人类的蛋白质图谱进行正常和癌组织基于抗体蛋白质组学”。分子和细胞蛋白质组学:MCP4 (12)。生物技术学系AlbaNova大学中心,皇家理工学院(k), se - 106 91斯德哥尔摩,瑞典。mathias.uhlen@biotech.kth.se: 1920 - 32。https://doi.org/10.1074/mcp.M500279-MCP200