keggrest

kegg是一种数据库资源,用于了解生物系统的高级功能和实用程序,例如细胞,生物体和生态系统,从分子级信息,尤其是由基因组测序和其他高通用实验性实验生成的大型分子数据集(尤其是大型分子数据集)技术。

keggrest允许访问kegg rest api。由于KEGG在2012年12月31日禁用KEGG SOAP服务器(这意味着keggsoap包裹将不再工作),keggrest用作替代品。

接口到keggrest比较简单,在某些方面比keggsoap;但是,并非所有通过肥皂API获得的功能都在其余API中公开。如果以及当在服务器端公开更多功能时,此软件包将被更新以利用它。

概述

KEGG REST API建立在一些简单的操作上:信息,,,,列表,,,,寻找,,,,得到,,,,转换, 和关联。相应的r功能keggrest是:kegginfo(),,,,kegglist(),,,,keggfind(),,,,keggget(),,,,keggconv, 和kegglink()

探索Kegg资源kegglist()

KEGG公开了许多数据库。要了解可用的东西,请运行listDatabases()

库(keggrest)listDatabases()
## [1]“ pathway”“ brite”“模块”“ KO”“基因组”“ VG” ## [7]“ AG”“ AG”“化合物”“ Glycan”“ Recess”“ Rection”“ RCLASS”“酶” ## [13 [13]“疾病”“药物”“ dgroup”“ vocure”“基因”“配体” ## [19]“ kegg”

您可以在其他查​​询中使用这些数据库。请注意,在许多情况下,您还可以在同一地点使用三个字母的KEGG生物体代码或“ T号”(基因组标识符),您将使用这些数据库名称之一。

您可以获取与Kegg中可用的生物清单kegglist()功能:

org <-kegglist(“有机体”)头(org)
##]“ T02283”“ PPS”“ PAN PANISCUS(BONOBO)” ## [4,]“ T02442”“ GGO”“ Gorilla Gorilla Gorilla Gorilla(Western Lowland Gorilla)” ## [5,]Abelii(Sumatran Orangutan)“ ## [6,]“ T03265”“ NLE”“ Nomascus leucogenys(Nomascus leucogenys)(北部白色cheeked gibbon)” ##系统发育## [1,]“ euckaryotes; euckaryotes; euckaryotes; thimales; thimales; vertebres; vertebrates; mammals; mammals; mammals》 ## [## [## [## [## [## [## [## [## [## [## [## [## [## [##]2,]“真核生物;动物;脊椎动物;哺乳动物” ## [3,]” Euckaryotes;动物;脊椎动物;哺乳动物;哺乳动物” ## [4,]“真核生物;动物;脊椎动物;脊椎动物;哺乳动物” ## [5,];动物;脊椎动物;哺乳动物“ ## [6,]”真核生物;动物;脊椎动物;哺乳动物”

keggrest的观点,您刚刚要求Kegg向您展示“有机体”数据库中每个条目的名称。

因此,可以查询的实体的完整列表keggrest可获得如下:

Queryables <-c(listDatabases(),org [,1],org [,2])

您也可以要求“ HSA”中的每个条目(智人)数据库如下:

kegglist(“ HSA”)

获得特定条目keggget()

一旦您拥有特定的KEGG标识符列表,请使用keggget()获取有关它们的更多信息。在这里,我们查找人类基因和大肠杆菌O157基因:

查询<-keggget(C(“ HSA:10458”,“ ECE:Z5100”))

正如预期的那样,这将返回两个项目:

长度(查询)
## [1] 2

幕后,keggrest下载并解析了kegg平面文件,您现在可以探索:

名称(查询[[1]])
## [1]“输入”“符号”“名称”“矫正”“有机体”“途径” ## [7]“网络”“ brite”“ tocient”“ tocor”“”“ dblinks”“ dblinks”“ struction” ## [13 [13]“ aaseq”“ ntseq”
查询[[1]] $输入
## CDS ##“ 10458”
查询[[1]] $ dblinks
## [1]“ ncbi-Geneid:10458”“ ncbi-proteinid:np_059345” ## [3]“ omim:605475”“ HGNC:947” ## [5]“ ensembl:ensembl:ensg00000175866”)“ ## [7]“ uniprot:q9uqb8”

keggget()还可以返回氨基酸序列Aastringset对象(来自生物弦包裹):

keggget(C(“ HSA:10458”,“ ECE:Z5100”),“ AASEQ”)##检索氨基酸序列
## AAStringSet object of length 2: ## width seq names ## [1] 552 MSLSRSEEMHRLTENVYKTIMEQ...DLSAQGPEGREHGDGSARTLAGR hsa:10458 K05627 ... ## [2] 248 MLNGISNAASTLGRQLVGIASRV...SGLPPLAQALKDHLAAYEQSKKG ece:Z5100 K12786 ...

…或者dnastringset对象如果选项NTSEQ

keggget(C(“ HSA:10458”,“ ECE:Z5100”),“ NTSEQ”)##检索核苷酸序列
## DNAStringSet object of length 2: ## width seq names ## [1] 1659 ATGTCTCTGTCTCGCTCAGAGGA...CCCGCACCCTGGCTGGAAGATGA hsa:10458 K05627 ... ## [2] 747 ATGCTTAATGGAATTAGTAACGC...ATGAGCAATCGAAGAAAGGGTAA ece:Z5100 K12786 ...

keggget()还可以返回图像:

png <-keggget(“ hsa05130”,“ image”)t < -  tempfile()库(png)writepng(png,t)if(Interactive(Interactive())browseurl(t)

笔记keggget()只能一次返回10个结果集(此限制在服务器端)。如果您向10个以上的输入提供keggget(),,,,keggrest会警告只有前10个结果将被返回。

通过关键字搜索keggfind()

您可以搜索两个单独的关键字(在这种情况下为“ Shiga”和“ Toxin”):

头(keggfind(“基因”,C(“ shiga”,“ toxin”))))))))
## ece:z1464 ##“ stx2a; shiga; shiga like toxin ii a的亚基BP-933W“ ## ece:z1465 ##” stx2b; shiga tika tike toxin ii blike tike tike tike bp-bunit由细菌bp-bp-9333w“ ##”ECE:Z3343 ##“ STX1B; Shiga样毒素1亚基B中编码的CP-933V“ ## ECE:Z3344 ##” STX1A; Shiga; shiga; Shiga-like Toxin 1 subunit在Prophage CP-933V“ ## ECS:ECS_1205 ##“ STX2A; Shiga Toxin 2亚基A“ ## ECS:ECS_1206 ##” STX2B; Shiga Toxin 2 subunit B“

或一起搜索两个单词:

头(keggfind(“基因”,“ shiga toxin”))
## ece:z1464 ##“ stx2a; shiga; shiga like toxin ii a的亚基BP-933W“ ## ece:z1465 ##” stx2b; shiga tika tike toxin ii blike tike tike tike bp-bunit由细菌bp-bp-9333w“ ##”ECE:Z3343 ##“ STX1B; Shiga样毒素1亚基B中编码的CP-933V“ ## ECE:Z3344 ##” STX1A; Shiga; shiga; Shiga-like Toxin 1 subunit在Prophage CP-933V“ ## ECS:ECS_1205 ##“ STX2A; Shiga Toxin 2亚基A“ ## ECS:ECS_1206 ##” STX2B; Shiga Toxin 2 subunit B“

搜索化学公式:

头(keggfind(“化合物”,“ C7H10O5”,“公式”))
## cpd:C00493 cpd:C04236 cpd:C16588 cpd:C17696 cpd:C18307 cpd:C18312 ## "C7H10O5" "C7H10O5" "C7H10O5" "C7H10O5" "C7H10O5" "C7H10O5"

搜索包含“ O5”和“ C7”的化学配方:

头(keggfind(“化合物”,“ O5C7”,“公式”))
## cpd:C00493 cpd:C00624 cpd:C01215 cpd:C01424 cpd:C02123 cpd:C02236 ## "C7H10O5" "C7H11NO5" "C7H9NO5" "C7H6O5" "C7H12O5" "C7H6O5S"

您可以搜索具有特殊质量的化合物:

keggfind(“化合物”,174.05,“ exterr_mass”)
## CPD:C00493 CPD:C04236 CPD:C16588 CPD:C17696 CPD:C18307 CPD:C18312 ##“ 174.052823

因为我们提供了一个数字,其中有两个小数位精度,所以KEGG会在174.045至174.055之间找到所有具有精确质量的化合物。

整数范围可用于通过分子量查找化合物:

头(keggfind(“化合物”,300:310,“ mol_weight”))
## CPD:C00051 CPD:C00200 CPD:C00219 CPD:C00239 CPD:C00270 CPD:C00357 ##“ 307.32348” 306.33696“

转换标识符keggconv()

在KEGG标识符和外部标识符之间转换。

您可以指定完全合格的标识符:

keggconv(“ ncbi-proteinid”,C(“ HSA:10458”,“ ECE:Z5100”))
## HSA:10458 ECE:Z5100 ##“ ncbi-proteinid:np_059345”“ ncbi-proteinid:aag58814”

…或获取整个物种的映射:

头(keggconv(“ eco”,“ ncbi-geneid”))
## NCBI-GENEID:944742 NCBI-GENEID:945803 NCBI-GENEID:947498 NCBI-GENEID:945198 ## eco:eco:b0001“ eco:eco:eco:b0002” eco:b0002”944747 NCBI-GENEID:944749 ##“ ECO:B0005”“ ECO:B0006”

反向参数的映射相反:

头(keggconv(“ ncbi-Geneid”,“ eco”))
## eco:b0001 eco:b0002 eco:b0003 ## "ncbi-geneid:944742" "ncbi-geneid:945803" "ncbi-geneid:947498" ## eco:b0004 eco:b0005 eco:b0006 ## "ncbi-Geneid:945198“” NCBI-GENEID:944747“” NCBI-GENED:944749“

跨数据库链接与kegglink()

大部分的keggsoap例如,其名称以“ get”开头的函数get.pathways.by.genes(),可以用kegglink()功能。在这里,我们为人类查询所有途径:

头(kegglink(“路径”,“ HSA”))
## HSA:10327 HSA:124 HSA:125 HSA:126 HSA:127 ##“ PATH:HSA00010”“ PATH:HSA00010”“ PATH:HSA00010”“:HSA00010”“ PATH:HSA00010”:HSA00010“:#“路径:HSA00010”

…但是您也可以指定一个或多个基因(来自多个物种):

kegglink(“ pathway”,C(“ HSA:10458”,“ ECE:Z5100”))
## HSA:10458 HSA:10458 HSA:10458 HSA:10458 ECE:Z5100 ##“ PATH:HSA04520”“ PATH:HSA04810” PATH:HSA04810“ PATH:HSA05130”: