伤心客 发表于 2024-11-6 02:30:51

网络药理学:详解TCMSP数据库(简介和功能介绍。新旧有何区别?数据体量多

1.前言(新旧TCMSP)

纵观网络药理学,尤其是中药网络药理学的论文脉络,我们可以发现高达90%的论文在收集某一中药的因素时用的都是单一的TCMSP数据库(本人评估的比例哈),TCMSP的引用次数也确实高居榜首。
然而该数据库还是有肯定局限性的。譬如其收录的动物相干药材较少,“龟甲”等药材就没有相干数据。
所以本文将会从数据泉源、引用环境、局限性等方面来详细介绍一下TCMSP数据库。
网址:


[*]旧tcmsp:https://old.tcmsp-e.com/tcmsp.php
[*]旧tcmsp实验室官网:https://old.tcmsp-e.com/index.php
[*]tcmsp2.0:https://www.tcmsp-e.com/#/home或https://www.91tcmsp.com/#/home
请区分!旧tcmsp的首页如下:
https://i-blog.csdnimg.cn/direct/3dca11075535484f92b55913fbe2e801.png
旧tcmsp实验室的首页如下:
https://i-blog.csdnimg.cn/direct/3c71b9af646647a18f8c39b6c7384fee.png
新tcmsp的首页如下:
https://i-blog.csdnimg.cn/direct/697e3158cb784653a7a63495ca7e0d45.png
2.官网首页(简介和功能介绍)

旧TCMSP首页官方介绍如下,同样适用于新TCMSP:
   TCMSP : Traditional Chinese Medicine Systems Pharmacology Database and Analysis Platform

TCMSP is a unique systems pharmacology platform of Chinese herbal medicines that captures the relationships between drugs, targets and diseases. The database includes chemicals, targets and drug-target networks, and associated drug-target-disease networks, as well as pharmacokinetic properties for natural compounds involving oral bioavailability, drug-likeness,intestinal epithelial permeability, blood-brain-barrier, aqueous solubility and etc. This breakthrough has sparked a new interest in the search of candidate drugs in various types of traditional Chinese herbs.

Please Cite: Jinlong Ru; Peng Li; Jinan Wang; Wei Zhou; Bohui Li; Chao Huang; Pidong Li; Zihu Guo; Weiyang Tao; Yinfeng Yang; Xue Xu; Yan Li; Yonghua Wang; Ling Yang. TCMSP: a database of systems pharmacology for drug discovery from herbal medicines. J Cheminformatics. 2014 Apr 16;6(1):13.
由以上信息,我们知道:
TCMSP ,全称是Traditional Chinese Medicine Systems Pharmacology ,中文名是中药系统药理学数据库与分析平台。
TCMSP捕获药物、靶点和疾病之间的关系。该数据库包罗化学物质、靶点和药物-靶点网络,以及相干的药物-靶点-疾病网络,还包罗涉及口服生物利用度、药物相似性、肠道上皮通透性、血脑屏障、水溶性等天然化合物的药代动力学特性。
请引用:金龙茹;李鹏;王金男;周伟;李博辉;黄超;李炜东;郭子虎;陶伟阳;杨茵峰;薛旭;李燕;王永华;杨玲.TCMSP:用于从草药中发现药物的系统药理学数据库。化学信息学杂志。2014 年 4 月 16 日;6(1):13.
总结如上,即TCMSP收录的都是中药的相干数据,其主要且常见的功能如下:

[*] 中药去查:

[*]中药有哪些因素(化合物)
[*]中药有哪些靶点
[*]中药有哪些关联的疾病

[*] 因素去查:

[*]因素(化合物)作用的靶点有哪些
[*]因素(化合物)关联的疾病有哪些
[*]因素(化合物)在哪些中药中出现
[*]因素(化合物)有哪些药代动力学数据(OB、DL、Caco-2、BBB等)
[*]因素(化合物)的CAS,其PubChem的链接,3D的布局下载(mol2)

[*] 名称或CAS去查:

[*]通过名称查询中药、化合物(因素)、靶点、疾病的相干数据
[*]通过CAS查询化合物(因素)的相干数据

然而,它首页说自己还可以提供药物-靶点网络,以及相干的药物-靶点-疾病网络。
现实上现在已经不提供了。也不提供靶点的DrugBank跳转了。
3.官网论文(数据泉源和体量)

https://i-blog.csdnimg.cn/direct/6def1c54a628412ba99061515eca4f7f.png
如上,其中旧官网首页的“请引用”的有其发表的可跳转的论文链接,让我们点进去继续深挖该数据库。
其论文发表于2014年的《Journal of Cheminformatics》(化学信息学杂志)上,我摘录了数据相干部分
   该2014年论文提到的数据体量和现下2024年10月24日截止我在旧TCMSP网站上观察到的数据体量是差不多的。
中药没有新增收录,化合物(因素)新增收录了五六百个。靶点新增收录了三十个左右。疾病新增收录了三十个左右。
而新版TCMSP与旧TCMSP数据没有区别。
3.1.数据的局限性(动物类、矿石类中药不全)

   Description

It consists of all the 499 Chinese herbs registered in the Chinese pharmacopoeia with 29,384 ingredients, 3,311 targets and 837 associated diseases. Twelve important ADME-related properties like human oral bioavailability, half-life, drug-likeness, Caco-2 permeability, blood-brain barrier and Lipinski’s rule of five are provided for drug screening and evaluation.
形貌
TCMSP包含了中国药典中注册的所有 499 种中草药,包罗 29,384 种因素、3,311 个靶标和 837 种相干疾病。为药物筛选和评估提供了 12 个紧张的 ADME 相干特性,如人类口服生物利用度、半衰期、药物相似性、Caco-2 通透性、血脑屏障和 Lipinski 五法则。
这说明什么,说明它收录的中药中的动物药就不怎么全了,假如全的话也会把数据列入论文里面的hhh
3.2.与其他中药相干数据库的比对(优劣势)

   Background

Presently, several databases have provided useful tools in different aspects for TCM investigations. For example, TCM-ID and TCM Database@Taiwan provide the largest number of herbal ingredients with 3D structures and functional properties. Chem-TCM and HIT focus on herbal compounds and their corresponding targets. TCMID comprises TCM formulae, herbs, ingredients and the targets and diseases. CVDHD collects those natural products related to cardiovascular diseases and targets. Comparisons among these databases are listed on the TCMSP website.

……In total, TCMSP contains more than 84260 compound-target pairs (CT pairs) and 2387 target-disease pairs (TD pairs).
背景
目前,一些数据库为中医观察提供了差异方面的有效工具。例如,TCM-ID 和 TCM Database@Taiwan 提供了数量最多的具有 3D 布局和功能特性的草药因素。化学中药 和 HIT 侧重于草药化合物及其相应的靶点。中药中药 包罗中医方剂、草药、因素以及靶点和疾病。CVDHD 收集与心血管疾病和靶点相干的天然产物。这些数据库之间的比较列在 TCMSP 网站上。
……
TCMSP 统共包含凌驾 84260 个化合物-靶点对 (CT 对) 和 2387 个靶点-疾病对 (TD 对)。
那么,让我们去往TCMSP网站上看一下,TCMSP官方列出的其与其他中药相干数据库的比较
https://i-blog.csdnimg.cn/direct/2e452df51ab5427da1d78e4135768b30.png
机翻一下哈:
编号TCMSPTCMIDCHEM-TCM台湾中医药数据库TCM-IDHIT网站http://sm.nwu.edu.cn/sp/tcmsp.phphttp://www.megabionet.org/tcmid/http://chemtcm.com/database.htmlhttp://tcm.cmu.edu.tw/http://bidd.nus.edu.sg/group/TCMsite/Default.aspxhttp://lifecenter.sgst.cn/hit/内容及主要目标包罗草药、因素(含布局文件)及其ADME特性,化合物-靶点-疾病网络构建。包罗方剂、草药、因素及相干靶点和疾病,化合物-靶点-疾病网络构建。包含化学识别、植物学信息、猜测的靶标活性和估计的分子活性。包罗中医药草药的化学组成及其布局和功能文件。可作为中医药化合物的检索。用于确定有关方剂、草药、因素和治疗属性、毒性效应、临床适应症和应用以及相干文献的有效参考资料。用于链接草药因素至靶点。应用于草药因素靶点识别。对公众免费下载++-+++构建数据库的方法手工收集数据挖掘和数据库整合手工收集手工收集手工收集手工收集草药数量499815935044311021300因素(总数/唯一)29384/1314425210/未知12070/950020000/未知未知/12120未知/586靶点33111752141--1301疾病8373791----网络分析是(获得的网络可举行进一步分析)是(获得的网络不能被下载)----药理性质(ADME)OB, Caco-2, BBB, 半衰期-----分子属性Lipinski (AlgoP, Hdon, Hacc, MW), FASA-, 类药物性, TPSA, RBN-ClogP, Hdon, Hacc, MW, PSA, RBNAlgoP, Hdon, Hacc, MW, PSA, RBNMW, pKa-化学筛选是(基于ADME特性和分子属性)-----外部数据库链接++--++未来功能发展1)计划活性因素组合;2)作用模式分析;3)药代动力学;4)用户可以自由上传数据,平台将提供全面的分析效果。未形貌未形貌未形貌未形貌未形貌 让我们再次精简以上表格,如下:
编号TCMSPTCMIDTCM-IDHIT网站http://sm.nwu.edu.cn/sp/tcmsp.phphttp://www.megabionet.org/tcmid/http://bidd.nus.edu.sg/group/TCMsite/Default.aspxhttp://lifecenter.sgst.cn/hit/内容及主要目标包罗草药、因素(含布局文件)及其ADME特性,化合物-靶点-疾病网络构建包罗方剂、草药、因素及相干靶点和疾病,化合物-靶点-疾病网络构建。用于确定有关方剂、草药、因素和治疗属性、毒性效应、临床适应症和应用以及相干文献的有效参考资料。用于链接草药因素至靶点。应用于草药因素靶点识别。草药数量499815911021300因素(总数/唯一)29384/1314425210/未知未知/12120未知/586靶点331117521-1301疾病8373791--分子属性Lipinski (AlgoP, Hdon, Hacc, MW), FASA-, 类药物性, TPSA, RBN-MW, pKa- 可以看到,TCMSP的上风在于因素(化合物)较全,且有较多的药代动力学等属性。然而劣势就是,草药的数量和靶点数还是不全。
同时,本人在此补充一下TCMSP等中药相干数据库的引用比对图。
https://i-blog.csdnimg.cn/direct/4a0170d9a3f449e3b22f1ce4288b22c5.png
图:NP(网络药理学)常用中药数据库分布及累计中文期刊发文数,其中虚线代表数据库收录关联性;截止检索时间2022年4月17日
3.3.数据泉源

   Herbal ingredients

In order to gather all available information about ingredients of herbal medicines, we performed an extensive literature search for each herbal medicine. Structure files of molecules were downloaded from PubChem Compound database, ChEMBL and ChemSpider , or produced by ISIS Draw 2.5 (MDL Information Systems, Inc.) and further optimized by Sybyl 6.9 (Tripos, Inc.) with Sybyl force field and default parameters . Different format types of the chemical files were converted to SDF format by Open Babel . The duplicates were removed according to InChIKey.
为了收集有关草药因素的所有可用信息,我们对每种草药举行了广泛的文献检索。分子的布局文件从 PubChem 化合物数据库、ChEMBL 和 ChemSpider 下载,或由 ISIS Draw 2.5 (MDL Information Systems, Inc.) 天生,并由 Sybyl 6.9 (Tripos, Inc.) 利用 Sybyl 力场和默认参数 进一步优化。Open Babel 将差异格式类型的化学文件转换为 SDF 格式 。根据 InChIKey 删除了重复项。
意思就是,化合物的布局文件来自于PubChem和ChemBL和ChemSpider,大概布局式画图天生。
   Drug targeting and disease association

Target information was obtained from DrugBank database . Drug-Target mappings were obtained from two sources. Experimental validated drug-target pairs were retrieved from HIT database . For those compounds without validated targets, the SysDT model constructed in our previous work was used to predict the potential targets of a compound. SysDT shows impressive performance of prediction for drug-target interactions, with a concordance of 82.83%, a sensitivity of 81.33%, and a specificity of 93.62%, respectively. The disease information was obtained from TTD database and PharmGKB (https://www.pharmgkb.org/).
靶标信息来自 DrugBank 数据库 。药物-靶标图谱来自两个泉源。从 HIT 数据库中检索实验验证的药物-靶点对 。对于那些没有验证靶标的化合物,我们利用我们之前工作 中构建的 SysDT 模型来猜测化合物的潜在靶标。SysDT 表现出令人印象深刻的药物-靶点相互作用猜测性能,同等性为 82.83%,敏感性为 81.33%,特异性为 93.62%。疾病信息来自 TTD 数据库 和 PharmGKB (https://www.pharmgkb.org/)。
意思就是,靶点信息来自于DrugBank,查询某种药物相干的靶点有哪些是来自于HIT数据库大概模型猜测。疾病信息来自于TTD和PharmGKB。
4.官网整体数据库下载

点击旧官网页面侧栏的Browse Database,我们可以看到TCMSP整体数据库如下,分为所有中药、所有因素、所有靶点、所有疾病四个模块。
https://i-blog.csdnimg.cn/direct/a7ff5955b66e4dd2b514cb09cb681901.png
由于TCMSP不提供直接的导出或下载,所以我们可以利用爬虫大概充值TCMSP会员,大概其他方法来获得整个数据库。
在这里本人引入谷歌插件Instant Data Scraper,它可以获取页面所含的excel或csv表格。是本人好友(CSDN账号:BlastOrange)推荐的一个方法,非常适合没有代码基础大概电脑没有编程环境的人。插件利用详情可以24年12月后私信打搅他。
除此之外,还可以直接访问:https://old.tcmsp-e.com/load_intro.php?id=31,看到如下界面,不过所有文件都是下载不了的……
https://i-blog.csdnimg.cn/direct/7acf3fe0171e4e32b4c4590e38095c6b.png
   如何来到上面的下载页面?在下文步骤1.6.官网更新日志的2014-01-25中可以看到允许跳转的蓝色笔墨“添加数据库下载选项”。
而新版TCMSP乃至不开放整体数据库呃呃呃。
5.官网推荐筛选尺度

除了我们常见的OB≥30%,DL≥0.18,当一个药物的因素过多时,我们是否还有其他尺度来继续缩小范围呢?
是有的,点击旧TCMSP首页侧栏的Parameter Information(参数详解),可以看到如下页面。新版TCMSP是同样的页面和尺度。
https://i-blog.csdnimg.cn/direct/78c2229dc30842c9b8a6addc849944f1.png
可以见到其推荐的尺度为:


[*]OB: ≥20%; DL ≥0.1;
[*]BBB: <-0.3 表示非穿透性(BBB-),从-0.3到+0.3,表示中等穿透性(BBB±),>0.3 表示强穿透性(BBB+)。
[*]HL: 药物半衰期 ≤4 h:快速消除组,4-8 h为中消除组,≥8 h为慢消除组;
[*]TPSA: 小于 60 平方埃的细胞膜可渗出性;
[*]RBN: 仅满足 10 个或更少的可旋转键获得良好口服生物利用度的尺度。
本页以下部分还有关于这些参数的界说,和其他参数相干的尺度。不过这些尺度都是根据2012年左右的论文文献提出来的,按个人环境是否采纳哈。
https://i-blog.csdnimg.cn/direct/de9e522434774c66b69232691ec61f19.png
5.1.OB≥30%,DL≥0.18是谁提出的尺度?

看到如上TCMSP的尺度,你是否会感到好奇,明显在2012年左右各人的尺度还是OB≥20%,DL≥0.1,为什么现在是OB≥30%,DL≥0.18了呢?
现实上,在2020年左右,TCMSP官网短暂地将尺度改成如下:
https://i-blog.csdnimg.cn/direct/db27ad5dcc3044b0beaaa1f547a06f28.png
那么到底OB和DL这个尺度是谁提出来的呢?TCMSP是如何测算的呢?
本人查找资料后发现,应该是TCMSP官方团队自己提出的规则。
具体可见网址:https://www.mdpi.com/1422-0067/13/6/6964,即TCMSP主要贡献者王永华本人的论文:《A novel chemometric method for the prediction of human oral bioavailability》
和其手下研究生的论文:《药物口服生物利用度猜测及在中药归经研究上的应用》
在论文中我们可以知道王永华老师及其团队认为:
P-糖蛋白 (P-gp) 和细胞色素 P450 是限制药物口服生物利用度 (OB) 的主要防线。
所以他们根据如上对数据集举行了切分和权重增强,其OB是由基于多元线性回归MLR,偏最小二乘法回归PLS,支持向量机SVR方法整合的OBioavail 1.1模型举行猜测的。
那么这个模型的效果到底怎么样呢?
在论文的最后提到,SVR的性能略优于 MLR 和 PLS,其决定系数 (R2) 为 0.80,尺度估计偏差 (SEE) 为 0.31。对于 MLR 和 PLS,它们相对较弱,对于 SEE 为 0.40 和 0.31 的训练集,它们的猜测能力分别为 0.60 和 0.64。也就是说,猜测值与实验值之间的匀称偏差约为 0.31左右。
这是什么意思?
意思就是模型的猜测效果的准确度在70%左右。其时其他模型的猜测效果准确度在60%左右。固然确实是相对进步了不少,但并不是说绝对精准的。
再结合模型是2015年5月左右完成的,论文是2016年发表的,也是距离当下有8年的时间了,数据会较为禁绝也是很正常的(目前网药中关于TCMSP数据库的数据准确性的质疑越来越大)。
别的靶点猜测也是利用前期开发的工具SysDT举行猜测的。在此不做过多展开。
6.官网更新日志

在旧版TCMSP网页上我们可以看到其更新日志,其最后的更新日志时间点是2014年。且从TCMSP1.0于2012-09-30年上线后,就几乎没有再新增数据了。
https://i-blog.csdnimg.cn/direct/7ed627a811444d98bb068050c1438c6d.png
7.官网友链

在旧版TCMSP的每个页面下面都可以看到TCMSP的版权说明和同实验室的友链CancerHSP和PreDC。
https://i-blog.csdnimg.cn/direct/b1a11b5bc0e34589a68a620397fda312.png
非常想吐槽的一件事就是产品不知道为什么要在这里计划一个统计访问量的功能hhh。插了一个统计访问量的php链接,然后再包裹成图片,要不说php是天下上最巨大的语言呢(乐
8.实验室官网

8.1.TCMSP技能论文(ADME盘算和网络靶标识别等理论)

含有如下板块:
https://i-blog.csdnimg.cn/direct/51e70fa45a9e4beb84518c5e1121232f.png
https://i-blog.csdnimg.cn/direct/c2a25b9cb5804a86a45e06d64e91560b.png
具体见实验室的官网:https://old.tcmsp-e.com/articles.php?id=1#%E4%B8%89%E3%80%81TCMSP%E6%8A%80%E6%9C%AF%E6%A8%A1%E5%9D%97
大概可以从实验室官网侧栏的TCMSP Analysis Platform大概顶栏的工具点进去。
https://i-blog.csdnimg.cn/direct/f9e2f3cae576457fb68b35f23a92b239.png
8.2.发表文章、引用查询、专利展示

都可以分别见于实验室官网顶栏。
也可以点进去顶栏的“平台应用”看到统计的数据,相干原文如下:
   目前利用TCMSP获得发明专利授权23个、实用专利授权9个、申请发明专利5个、发布尺度9个,与TCMSP有关授权商标23个,获批软件著作权1件。

TCMSP自发表以来,中文与英文研究论文的引用已经达到3万篇以上(CNKI、百度学术、Google学术、Pubmed,2023-11-01)。

CNKI:数据库表现,引用TCMSP的研究效果数量为3.82万篇
百度学术:数据库表现,引用TCMSP的研究效果数量为3.31万篇
Google学术:数据库表现,引用TCMSP的研究效果数量为1.21万篇
PubMed:数据库表现,引用TCMSP的研究效果数量为1249篇
9.新版TCMSP体验(狠狠批判)

新版TCMSP,本人感觉……emmm……先来看下首页吧总之,如下:
https://i-blog.csdnimg.cn/direct/a99496ec4b3d49c68c6b8f517ebd575b.png
起首UI优化了,这个无需多言。
其次产品计划方面变得更加商(传)业(销)了,譬如侧栏多了“培训与咨询服务”,右下角多了客服咨询,每个(都不能用的)小功能都有专门的“接洽我们”还有需求表单。
可以,这很华子。
https://i-blog.csdnimg.cn/direct/4a41264e7b3a4bdb92c35c07abffb9b0.png
当然,也是多了一些小功能的,起首它将处于旧版页面的友链CancerHSP直接搬上来和TCMSP并列了(另一个PreDC咱不要了吗/(ㄒoㄒ)/~~
其次就是,由于华为的盘古大模型的技能支持,相比于旧版,新版支持了网络展示。
https://i-blog.csdnimg.cn/direct/d6e54eff63014436b073de63c600713a.png
固然只能保存png等图片格式,感觉也是一个半废的功能。
最后狠狠批判其开通会员后没有任何会员服务,以消费记录为例。而且相比于旧版TCMSP,没有新增任何数据集就算了,还隐蔽掉了所有数据库。。。
https://i-blog.csdnimg.cn/direct/51f40b8db17245b5bbfa116514b21282.png
10.总结

还是推荐利用旧版TCMSP数据库的,对其总结如下:


[*]关于中药:其重点主要是收录中草药,而动物药较少。且中草药主要涵盖的是中国药典的500种,较TCMID等数据库还是较少。
[*]关于化合物(因素):化合物收录的较多,且含有OB、DL等药代动力学属性,属于其独特的上风。化合物的布局文件来自于PubChem和ChemBL和ChemSpider,大概布局式画图天生。
[*]关于靶点:靶点信息来自于DrugBank(但不提供链接跳转了)。查询某种药物相干的靶点有哪些是来自于HIT数据库大概模型猜测。
[*]关于疾病:疾病信息来自于TTD和PharmGKB。
[*]关于网络:不提供药物-靶点网络和药物-靶点-疾病网络下载了。
[*]关于网站整体用途:1)新中药组合开发;2)活性因素判定与筛选;3)系统药理学(最主要的用途)。
新版TCMSP改动如下:


[*]增加药物-靶点等网络展示和图片格式下载功能。
[*]UI更加美观。
[*]除此之外一无是处,还隐蔽了整体数据集。
所以假如你的药物在TCMSP上查不到因素,大概查到的因素都是槲皮素等假阳性因素,这也是很正常的。推荐利用TCM-ID、TCMID、ECTM、HIT、Herb等数据库进一步查找。

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
页: [1]
查看完整版本: 网络药理学:详解TCMSP数据库(简介和功能介绍。新旧有何区别?数据体量多