KEGG,全称Kyoto Encyclopedia of Genes and Genomes,是一个从分子水平信息,特别是基因组测序和其他高通量实验技能产生的大规模分子数据库,以相识细胞、有机体和生态体系等生物体系的高级功能和效用的数据库资源。
MetaCyc,全称Metabolic Pathways From all Domains of Life,一个巨大而全面的数据库,只包含非冗余且通过实验手段分析过的代谢通路。里有到场低级和次级代谢的各种通路以及相关代谢物,生物化学反应,酶和基因等信息,通过存储具有代表性的实验验证的代谢通路,来对全部生命的代谢过程进行分类。
CAZy, 全称为Carbohydrate-Active enZYmes Database,碳水化合物酶相关的专业数据库,内容包括能催化碳水化合物降解、修饰、以及生物合成的相关酶系眷属。
其包含五个主要分类:糖苷水解酶(Glycoside Hydrolases, GHs)、糖基转移酶(GlycosylTransferases, GTs)、多糖裂解酶(Polysaccharide Lyases, PLs)、糖酯酶(Carbohydrate Esterases, CEs)和氧化还原酶(Auxiliary Activities, AAs)。
此外,还包含与碳水化合物结合结构域(Carbohydrate-Binding Modules, CBMs)。五大分类和一个结构域下,都分别创建了多个Family。
GHs:糖苷键的水解和/或重排
GTs:糖苷键的形成
PLs:糖苷键的非水解裂解
CEs:水解碳水化合物的酯类
AAs:与 CAZymes 协同作用的氧化还原酶
CBMs:与碳水化合物结合 ★ METACYC与KEGG都可以用来微生物的代谢通路预测,那么两者有什么区别呢?
MetaCyc的代谢物信息相较于KEGG提供内容更多,除了基础的物质信息以外,还包括物质的化学性质(如:油水分配系数、拓扑极性表面积、尺度吉布斯自由能等)。
KEGG在通路方面的检索方式比MetaCyc更简单一些,通过通路名称或一个代谢物即可检索到相关的通路,而MetaCyc除了通路名称外,还需要提供通路中包含的4个底物才能检索到对应的通路;别的,在通路的完整度上,KEGG中更加注意的是在全部物种中的通路汇总到一张图上,而MetaCyc更加注意的是不同物种中通路的差异化。 KEGG的通路会覆盖的更全一些,而MetaCyc相对会少一些,但是MetaCyc可以补充部分KEGG通路上不全的部分,因此KEGG与MetaCyc可以相互补充,达到相得益彰的效果。 // 提示
想要查询不同功能的细节,表明生物学征象等,可以从数据库官网上查询,例如:
KEGG数据库:
MetaCyc数据库官网:
https://metacyc.org/
CAZY数据库:
http://www.cazy.org/
COG数据库:
https://www.ncbi.nlm.nih.gov/COG/ KEGG通路层级汇总:
Picrust2输出KEGG只有KO,KO层级通常有7、8千的功能条目。缺少PICRUSt1中分类合并为一级、二级、三级的3级通路,这里我们重新整理KEGG的层级数据并实现此功能,合并后仅剩500多个条目,方便比力和形貌。 生成的分类层级文件
Picrust2/KEGG.PathwayL1.raw.txt
Picrust2/KEGG.PathwayL2.raw.txt
Picrust2/KEGG.Pathway.raw.txt
KEGG官网页面上给出了全部pathway的名字及其隶属关系,分成三个级别。 一级分类:共7个,分别是Metabolism(代谢)、Genetic Information Processing(遗传信息处理)、Environmental Information Processing(情况信息处理)、Cellular Processes(细胞过程)、Organismal Systems(有机体系)、Human Diseases(人类疾病)和Drug Development(药物开辟)。
二级分类:在一级分类下面的分类,例如一级分类Cellular Processes下面包括5个二级分类:Transport and catabolism、Cell growth and death、Cellular community – eukaryotes、Cellular community – eukaryotes和Cell motility。 三级分类:二级分类下面的分类,例如二级分类Cell motility下面包括3个三级分类:Bacterial chemotaxis、Flagellar assembly和Regulation of actin cytoskeleton。
富集分析的结果一样平常都是三级分类,因此使用二级分类对三级分类进行汇总,可以快速找到相关的通路。例如Cell growth and death(细胞生长与殒命)相关通路。
根据3级层级分类通路数据,做KEGG分类层级图