论坛
潜水/灌水快乐,沉淀知识,认识更多同行。
ToB圈子
加入IT圈,遇到更多同好之人。
朋友圈
看朋友圈动态,了解ToB世界。
ToB门户
了解全球最新的ToB事件
博客
Blog
排行榜
Ranklist
文库
业界最专业的IT文库,上传资料也可以赚钱
下载
分享
Share
导读
Guide
相册
Album
记录
Doing
搜索
本版
文章
帖子
ToB圈子
用户
免费入驻
产品入驻
解决方案入驻
公司入驻
案例入驻
登录
·
注册
只需一步,快速开始
账号登录
立即注册
找回密码
用户名
Email
自动登录
找回密码
密码
登录
立即注册
首页
找靠谱产品
找解决方案
找靠谱公司
找案例
找对的人
专家智库
悬赏任务
圈子
SAAS
IT评测·应用市场-qidao123.com技术社区
»
论坛
›
数据库
›
图数据库
›
蛋白质组学底子入门系列丨(七)蛋白质组学数据库检索 ...
蛋白质组学底子入门系列丨(七)蛋白质组学数据库检索 ...
石小疯
论坛元老
|
2025-1-19 13:58:57
|
显示全部楼层
|
阅读模式
楼主
主题
1851
|
帖子
1851
|
积分
5553
马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。
您需要
登录
才可以下载或查看,没有账号?
立即注册
x
前言
Shotgun法分析蛋白质组一样平常包含四个步骤:①样本制备;②质谱检测;③数据库检索;④数据分析,步骤①、②已在往期文章中介绍过,本期文章重点讲解质谱检测得到的数据该如何进行搜库处置惩罚。
1. 搜库软件简介
在蛋白质组学中,搜库通常是指通过计算机软件对质谱收罗的原始谱图数据进行解析,从而获得肽段及蛋白的鉴定和定量信息的过程。
目前常用的搜库软件中,有些是由商业公司开辟的,如Proteome Discoverer、Spectronaut、ProteinPilot等,功能较全面,与对应质谱仪器适配程度高,使用较简朴,但每每需要高额收费。有些搜库软件则是由从事蛋白质组学研究的课题组开辟的,如X!Tandem、pFind、Comet等,通常可免费下载使用,其搜库算法各有特色,但在某些方面大概体现不佳,且有些软件使用方法也较为繁琐。此中,由德国马克思-普朗克研究所Jürgen Cox和Matthias Mann教授课题组开辟和维护的MaxQuant,颠末多年的发展升级,已成为目前蛋白质组学中使用最广泛的搜库软件之一。
(常用的蛋白质组学搜库软件)
MaxQuant(https://www.maxquant.org/)拥有本身的肽段搜索引擎——Andromeda,支持目前全部蛋白质组学质谱仪厂商产生的原始数据格式;支持标记定量和非标定量;拥有非线性子量校正和Match Between Runs功能,可以进步蛋白鉴定数量和定量准确性。MaxQuant重要部署在Windows体系,有较完整的效果查看和分析界面,使用方法较简朴,并且有配套的效果后处置惩罚软件Perseus。别的,该课题组还多年构造暑期讲授课程,拥有完善全面的MaxQuant使用教程。
因此,本期重点以MaxQuant为例,介绍蛋白质组学数据库检索的过程。
2. 数据库检索概述
①输入文件:
搜库是将质谱收罗到的原始谱图数据和蛋白质组数据库进行比对解析的过程,因此大部分搜库软件都需要两类输入文件:蛋白质组数据库和谱图原始数据,MaxQuant也不破例。
与目前的大部分搜库软件雷同,MaxQuant需要以Fasta格式输入蛋白质组数据库包含的序列信息,之后会通过模拟酶切和模拟碎裂,将蛋白质组序列信息转换为理论谱图数据。
②肽段与蛋白鉴定:
对于输入的谱图原始数据,MaxQuant会通过其内置的Andromeda算法,颠末中心化、去同位素化、降噪等过程,提取各原始二级谱图的特征,并与蛋白序列数据库计算得到的理论谱图进行比对,匹配程度最高的理论二级谱图对应的肽段信息将作为检测二级谱图的鉴定效果。最后,根据蛋白的氨基酸序列,肽段的鉴定信息会被归结为蛋白的鉴定信息。由于不同蛋白大概存在肯定的序列重复性,无法通过肽段序列区分开的蛋白会被归类到同一个蛋白组(ProteinGroup)。序列上大概同时归属于多个蛋白组的肽段会被分配给具有最多肽数量的蛋白组,而不作为其他蛋白组的鉴定证据。通过这种方式,MaxQuant很大程度上制止了蛋白质程度上的过分计数鉴定,并使鉴定和定量信息明确无误。
③蛋白定量:
参考二级谱图获得的肽段鉴定信息,MaxQuant可计算一级谱图中各个肽段对应的信号相对时间的累积强度,即各个肽段XIC谱图的峰面积,作为非标记定量的数据泉源。蛋白的intensity为其包含的肽段intensity之和。基于MaxQuant内置的MaxLFQ算法,各个蛋白的intensity将基于不同样品间均鉴定到的肽段的定量信息进行校正,计算得到LFQ intensity,以尽量消除处置惩罚、上样、预分、仪器等造成的样本间误差,从而进行不同样品间雷同蛋白的定量比较。而将蛋白的intensity除以各个蛋白的理论肽段数量,计算出的iBAQ数值,可粗略表征样品中不同的蛋白的摩尔比,用于对同一样品中的不同蛋白进行粗略比较。
(MaxQuant软件搜库算法流程
The MaxQuant computational platform for mass spectrometry-based shotgun proteomics. Nat Protoc. 2016 Dec;11(12):2301-2319)
3. 数据库选择
蛋白质组数据库中包含的蛋白序列信息是否全面准确是影响搜库效果中蛋白鉴定和定量准确性的重要因素。理论上,在搜库中最合理的蛋白质组数据库应包含待测样品中全部大概存在的蛋白序列,同时尽量不包含样品中不存在的蛋白序列。但由于检测和搜库前无法获知待测样品的准确情况,在现实应用中,搜库时通常选择待测样品所属物种的全蛋白质组序列数据库。假如待测样品泉源于多个物种,如病毒/细菌感染样品,则搜库所用数据库应尽量包含此中全部物种的蛋白序列。
受益于基因组和转录组测序的发展,Uniprot数据库(https://www.uniprot.org/)以及NCBI数据库(https://www.ncbi.nlm.nih.gov/)均已包含大量物种的蛋白质组序列信息。在蛋白质组学研究中,通常选择泉源于Uniprot的蛋白质组序列数据。Uniprot是全球信息最全面、使用频率最高、冗余度最低的蛋白数据库,可免费获取高质量的蛋白序列和功能信息,数据库由Swiss-Prot(瑞士生物信息研究所)、TrEMBL(欧洲生物信息研究所)和PIR-PSD(蛋白信息资源)三大数据库的数据整合而成。其数据重要来自于基因组测序项目完成后获得的蛋白质序列,并包含了大量来自文献和人工注释的蛋白质的生物功能的信息。对于大部分已有研究的物种,Uniprot中已收录了其蛋白质组序列数据库,并给出了相近物种中较为全面和准确的参考蛋白质组序列数据库(Reference proteome)。
Uniprot数据库重要子数据库组成如下:
(Uniprot子数据库组成)
以上子数据库间的关系如下:Uniprot会网络EMBL、GenBank、DDBJ等公共数据库中的蛋白质序列及功能信息等原始数据,处置惩罚后存入UniParc的非冗余蛋白质序列数据库中;UniParc作为数据堆栈,再分别给UniProtKB、Proteomes、UniRef 提供可靠的数据集,此中在UniProtKB数据库中Swiss-Prot是由TrEMBL颠末手动注释后得到的高质量非冗余数据库,也是我们最常用的蛋白质数据库之一。
(Uniprot子数据库关系)
对于常见的模式物种,可通过选择数据库中已校验过的、注释信息更全更准确的蛋白条目(Reviewed/Swiss-Prot),以尽量缩减数据库规模,进步搜库速度和蛋白鉴定/定量的准确性。对于某些研究较少的物种,若数据库中其蛋白质组序列信息过少,可通过选择相近的、蛋白质组数据较全的物种的数据库进行替代参考;或通过选择其上级种属以扩大蛋白质组序列数据库规模。
4. MaxQuant设置和效果介绍
MaxQuant中具有大量的可调治参数,可以对搜库过程中的各个环节进行调整。在常规搜库中,大部分参数可沿用默认设置,仅需根据项目情况进行些许调整。大抵过程如下:
首先,在“Raw data”界面,导入质谱收罗的原始数据,并设置其样品名(experiment);对于泉源于同一个样品分级分离得到的不同组分,还需要设置其组分信息(fraction)。
(原始数据导入和样品设置)
其次,在“Group-specific parameters”界面,可根据样本情况设置定量类型(Type)、翻译后修饰(Modification)和酶解类型(Digestion)。非标记定量的项目需要勾选“Label-free quantification”。
(定量、修饰和酶解设置)
然后,在“Global parameters”界面,需导入搜库所需的蛋白质组序列数据库Fasta文件(Sequences),同时,也可选择是否启用match between runs功能(Identification),以及是否计算iBAQ数值(Label free quantification)。
(数据库和其他设置)
搜库完成后,搜库效果可在“Visualization”界面进行查看,重要包括样品的总体扫描图谱(Map view)、鉴定和定量表格(Table view)、一级和二级谱图(MS features view)以及蛋白鉴定情况(Protein view)。
(效果可视化界面)
全部的鉴定及定量表格也会以txt格式保存于combine文件夹下属的txt文件夹中,此中proteinGroups.txt文件中关于蛋白的鉴定及定量信息是各类蛋白质组学研究中最常用最重要的数据。
总结
蛋白质组学研究中,数据库检索是通过搜库软件将谱图原始数据与已有数据库进行比对,从而解析谱图、获得肽段和蛋白鉴定信息的过程。因此要获得准确的蛋白鉴定和定量效果,需要选择符合的数据库和搜库软件。针对雷同的数据,假如选择不同的数据库或不同的软件,得到的效果也会存在差异。目前,蛋白质组学研究中通常使用泉源于Uniprot的物种蛋白质组序列数据库;而使用最广泛的蛋白质组学搜库软件之一则是MaxQuant,可满意大部分项目的分析需求,并提供业内承认的蛋白鉴定和定量数据。
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
回复
使用道具
举报
0 个回复
倒序浏览
返回列表
快速回复
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
or
立即注册
本版积分规则
发表回复
回帖并转播
回帖后跳转到最后一页
发新帖
回复
石小疯
论坛元老
这个人很懒什么都没写!
楼主热帖
解决图片无法设置hover,以设置图片的 ...
SQL的多表查询
C# GDI+ 画心形 跳动动画
解决OpenCV的imread/imwrite在Qt环境不 ...
几个函数的使用例子:更新VBRK-XBLNR, ...
Hive安装与启动
qrtz表初始化脚本_mysql
MySQL基础(DDL、DML、DQL)
堆Pwn:House Of Storm利用手法
OpenHarmonyOs / LiteOs-a 开发环境搭 ...
标签云
AI
运维
CIO
存储
服务器
浏览过的版块
数据仓库与分析
容器及微服务
运维.售后
主机安全
Mysql
备份
快速回复
返回顶部
返回列表