省流:
AlphaFold3能做什么:猜测卵白质、DNA、RNA与答应的配体/离子/共价修饰的复合物结构
为什么要用AlphaFold3:有强盛的泛化性和精确率,除了RNA结构略差于AIchemy_RNA2外,猜测精度高于现有方法(包括Vina和RosettaFold-All-Atom)
AlphaFold3怎么用:代码不开源,网站https://alphafoldserver.com/需注册使用,每日限制提交任务(2024/05/17为每日20次提交)
论文阅读
置信度指标
mini-rollout: Several of the heads require predicted coordinates, therefore at training time we do a short rollout of the Diffusion Module from pure noise with 20 steps. 用这里提取的结构来训练 confidence head。
pLDDT
- 衡量什么:Predicted local distance difference test,猜测仅考虑到聚合物距离的 LDDT 分数,值越高表示置信度越高。 对于配体原子,仅考虑配体原子与聚合物之间的偏差,而不是配体原子之间的其他偏差。
- 怎么算:对于原子 l l l, lddt l = ∑ m ∈ R 1 4 ∑ c ∈ { 0.5 , 1 , 2 , 4 } d l m < c \operatorname{lddt}_l=\sum_{m \in R} \frac{1}{4} \sum_{c \in\{0.5,1,2,4\}} d_{l m}<c lddtl=∑m∈R41∑c∈{0.5,1,2,4}dlm<c
d l m d_{l m} dlm:原子 l l l和原子 m m m的距离in the mini-rollout prediction。 m m m必要满足以下要求:
- 假如 m m m是DNA/RNA,真实结构中原子 l l l和原子 m m m的距离应小于30Å;卵白则是15Å。
- Only atoms in polymer chains
- One atom per token
- 多高算好:pLDDT 大于 90 被视为最高精度类别,在这种环境下,卵白主链和侧链通常都能被高精度猜测。相反,pLDDT 大于 70 通常对应着主链猜测精确但部门侧链位置错误的环境。
- 为什么会低:
- 该地区天然高度机动或内在无序,因此没有任何确定的结构。
结构域的毗连链往往更加可变、结构性较差、机动性更高。对于这种天然无序地区,无法猜测其具体结构,因此 AlphaFold会给出较低的置信度评估。
- 该地区虽然有可猜测的结构,但 AlphaFold缺乏充足信息来高置信度地猜测。
PAE
- 衡量什么:Predicted aligned error,猜测结构中两个token之间的相对位置和方向的偏差(the error of one token when aligned according to the frame of another)
- 怎么算: PAE i j = ∑ b = 1 64 Δ b p i j b \operatorname{PAE}_{i j}=\sum_{b=1}^{64} \Delta_b p_{i j}^b PAEij=∑b=164Δbpijb
Δ b \Delta_b Δb: distance bin centers
对于卵白质和核酸,PAE 评分本质上与 AlphaFold2 相同,其中偏差是相对于由卵白质主链构建的框架来丈量的。对于小分子和翻译后修饰,从参考构象异构体的最相近原子为每个原子构建框架。
- 多高算好:值越高表示猜测偏差越高,因此置信度越低。
pTM和ipTM
- 衡量什么:猜测模板建模 (pTM) 分数和界面猜测模板建模 (ipTM) 分数均源自TM score。
- 多高算好:pTM 得分高于 0.5 意味着复合物的总体猜测折叠大概与真实结构相似,ipTM 高于 0.8 的值表示有信心的高质量猜测,而低于 0.6 的值表示猜测大概失败。
- 为什么会低:TM 评分对于小型结构或短链非常严酷,因此当涉及的分子少于 20 个时,pTM 的值小于 0.05;此时 PAE 或 pLDDT 大概更能阐明猜测质量。
指标相关性
- 通过将猜测得到的ipTM分数进行分箱处理,并统计每个分数区间内的样本数量,发现ipTM分数与卵白质-卵白质对接的DockQ、卵白质-核酸对接的iLDDT以及卵白质-配体对接的成功率之间存在明显的正相关性
- pLDDT分数与上述三个模型猜测的精确性之间存在正相关性
- 7T82案例中,相互作用界面的DockQ与模型猜测的PAE矩阵之间存在划一性
性能比较
Protein-ligand
对比其他模型:AutoDock Vina,RosettaFold-All-Atom
指标:% of pocket-aligned ligand RMSD < 2Å
数据集:
- PoseBusters数据集上进行了160项评估,该数据集由 428个卵白质-配体结构组成,其中161个在2021年以后加入到PDB。
- PoseBusters V1: August 2023 release, PoseBusters V2: November 6th 2023 release。除Extended Data Figure 4b-f 使用V2外,文中重要在V1上进行比较
- 在更早的训练集训练了单独的AF3 2019(保证无数据泄露)。
比较结果:
- AF3大大优于Vina和RFAA。
- 使用口袋信息后,优于无信息AF3,优于holo已知的EquiBind、TankBind、DiffDock,优于 pocket residues已知的Vina on AF-M 2.3、DeepDock、Uni-Mol、UMol、Gold、Vina、Uni-Mol Docking V2。
- AF3在非Natural小分子成功率会低一些。Natural小分子界说为在PDB数据库出现超过100次。
- 与DiffDock在V2上比较分子有效性,除Tetrahedral chirality外都更优。
Protein-nucleic
对比其他模型:RoseTTAFold2NA(RFAA精度低于RoseTTAFold2NA),AIchemy_RNA2(the best AI-based submission in CASP15)
指标:针对复合物是iterface LDDT,单体RNA仅为LDDT
数据集:PDB数据库中卵白-RNA,卵白-dsDNA;CSAP15比赛的RNA单体
比较结果:
- AF3优于RoseTTAFold2NA,但是没有达到人类专家辅助的 AIchemy_RNA2 的性能。
- 在单独核酸DNA/RNA上评估LDDT,AF3优于RoseTTAFold2NA。
Covalent modifications
指标:% of pocket-aligned ligand RMSD < 2Å
数据集:Recent PDB
比较结果:在磷酸化 (SEP、TPO、PTR、NEP、HIP)场景,有PTM建模结果更好
Protein complex/monomer
对比其他模型:AlphaFold-Multimer v2.3
指标:% DockQ > 0.23 for protein-protein and protein-antibody interfaces,LDDT for Protein monomers
数据集:Recent PDB
比较结果:
- AF3相对于 AlphaFold-Multimer v2.3提高了卵白质复合物精确度,抗体卵白质相互作用猜测尤其表现出显着的改善。卵白质单体的 LDDT也有改善。
- AF3对MSA深度的依赖性与AF-M 2.3非常相似;具有浅MSA 的卵白质的猜测精度较低。
复合物任务完整汇总见Extended Data Table 1
缺陷
- stereochemistry
- 输入为精确手性分子,输入大概为错误手性:a chirality violation rate of 4.4% in the benchmark
- overlapping (“clashing”) atoms: 冲突重要发生在核苷酸总数超过 100 个且残基总数超过 2,000 个的卵白质-核酸复合物中。
- multiple seeds 多跑几遍
- spurious structural order (hallucinations) in disordered regions:重要是具有非常低pLDDT和猜测中位置差别等的虚假α螺旋,缺乏AlphaFold 2在无序地区产生的典型丝带状外观。
- use distillation training from AlphaFold 2 predictions
- add a ranking term to encourage results with more solvent accessible surface area
- 无序地区的存在影响附近的pLDDT,去除无序尾部可以更清晰地表现有序地区的置信度。
- static:无法区分构象转变
- MSA resampling
- 引入更多model seeds可以提升猜测结果:模型置信度输出与猜测精确性相关,并且相关性的强度因分子类型而异。在某些环境下,只有通过运行多个种子并选取排名靠前的样本才能实现最佳模型性能;抗体-抗原相互作用尤其云云。
模型架构
- AlphaFold3对protein和RNA进行了Genetic search,但是AlphaFold3中的MSA模块比AlphaFold2小得多(仅有四个块)。不再保留MSA表示,全部处理都基于成对表示。Template search仅针对单个卵白链,不提供多链模版,模型最多使用4个结果。
- Pairformer模块更换了AlphaFold2中的Evoformer模块。基本保留AF2中的pair processing and the number of blocks (48) 。
- Diffusion模块更换了AlphaFold2中的IPA架构模型。relatively standard diffusion approach提供了结构的分布,而不是单个带有不确定性的结构,避免了基于扭转的参数化和结构的violation losses。
- 全部transition block中的激活函数由ReLU改为SwiGLU,atom attention中保留ReLU。
Server使用
输入
可输入的大分子
- Protein、 DNA 、RNA: 输入序列
- Ligand: ATP, ADP, AMP, GTP, GDP, FAD, NADP, NADPH, NDP, 血红素, 血红素C, 肉豆蔻酸, 油酸, 棕榈酸, 柠檬酸, 叶绿素A和B, 细菌叶绿素A和B
- Ion: Ca²⁺, Co²⁺, Cu²⁺, Fe³⁺, K⁺, Mg²⁺, Mn²⁺, Na⁺, Zn²⁺, Cl⁻
可输入的修饰
- 生物常见的氨基酸残基的翻译后修饰(PTMs)
- 苏氨酸、酪氨酸、组氨酸的磷酸化
- 赖氨酸的乙酰化
- 赖氨酸和精氨酸的甲基化
- 半胱氨酸的马来酰化
- 脯氨酸、赖氨酸和天冬酰氨酸的羟基化
- 半胱氨酸的棕榈酰化
- 天冬酰氨酸的琥珀酰化
- 半胱氨酸的S-硝基化
- 色氨酸的甲酰化
- 赖氨酸的乌洛托品化
- 赖氨酸和精氨酸的桂氨酸化
- 由某些糖组成的糖链(包括支链):α/β-D-葡萄糖, α/β-D-甘露糖, α-L-岩藻糖, β-D-半乳糖, N-乙酰-β-D-葡糖胺
- 生物常见的核酸化学修饰:
- DNA
- 胞嘧啶、鸟嘌呤和腺嘌呤的甲基化
- 胞嘧啶的羧基化
- 鸟嘌呤的氧化
- 胞嘧啶的甲酰化
- RNA
- 胞嘧啶、鸟嘌呤、腺嘌呤和尿嘧啶的甲基化
- 尿嘧啶异构化为伪尿嘧啶
- 胞嘧啶的甲酰化
输入限制
- 每个卵白质链和核苷酸链必须至少包含4个氨基酸或核苷酸
- 仅支持标准氨基酸/核酸。可以用适合您特定环境的标准残基或核苷酸取代,通常,建议进行以下替代:
- 卵白质:用丙氨酸(A)更换未知的卵白质残基
- DNA:用多聚T(T)更换未知的核苷酸,但其他核苷酸也实用
- RNA:用多聚U(U)更换未知的核苷酸,但其他核苷酸也实用
- 作业的总大小受到结构中“token”数量的限制——限制为5000个token。换句话说,全部门子长度+修饰<5000。
- AlphaFold服务器不支持上述分子列表部门之外的配体、离子和修饰。此外,AlphaFold服务器无法猜测水分子或氢原子,并且不知道膜卵白的膜平面。
- 目前限制来自少数病毒病原体的序列。
糖基化
要描述糖链,使用与相应糖链相对应的3字母CCD代码(PDB中的化学组分)。请注意,立体异构体由差别的CCD代码描述,比方,甘露糖可以描述为MAN用于α-D-甘露糖和BMA用于β-D-甘露糖。
网站支持以下糖链残基附着到卵白质残基:
- N (天冬酰胺):BGC, BMA, GLC, MAN, NAG
- T (苏氨酸):BGC, BMA, FUC, GLC, MAN, NAG
- S (丝氨酸):BGC, BMA, FUC, GLC, MAN, NAG
支持的糖链可以以树的形式构建,每个糖链有一个或两个下游毗连,附着在卵白质残基上。总共支持多达8个糖链残基。
糖链 - 糖链毗连也应该是化学上有效的。比方,GLC(NAG)(MAN)不是有效的分支糖链,由于NAG和MAN不能与GLC形成糖苷键。
网站假定糖苷键是在PDB中雷同键中出现频率最高的位置之间形成的——这大概导致模型结构中的键位置与预期差别。目前不支持指定糖苷键的确切原子。
输出
网站每次运行返回五个猜测。结果页面表现排名最高的猜测,并且全部样本及其相关的置信度都可通过“下载”按钮以zip文件形式下载。
对于每个猜测样本,提供两个JSON文件。
summary confidences.json
- chain_iptm, chain_pair_iptm, chain_pair_pae_min, chain_ptm, iptm, ptm
- fraction_disordered: 0-1 范围内的标量,猜测结构中无序部门的比例
- has_clash: True or False,指示结构是否具有大量冲突原子(超过链的 50%,或具有超过 100 个冲突原子的链)
- ranking_score: 0.8 × ipTM + 0.2 × pTM + 0.5 × disorder − 100 × has_clash
- num_recycles
full data.json:
- atom_chain_ids, token_chain_ids, token_res_ids
- atom_plddts
- contact_probs: predicted probability that token i and token j are in contact(代表原子之间距离 8Å)
- pae
Term of use
禁止使用模型输出:
- 代表任何商业构造或商业活动
- 任何猜测卵白联合底物或多肽的自动体系,包括但不限于AutoDock/Glide对接等工具
- 训练呆板学习模型或雷同技术,来进行类AlphaFold的生物分子结构猜测。
- 无显着关照/引用下发表或修改结果,或提供衍生物
- MISINFORM, MISREPRESENT OR MISLEAD:
- 歪曲与 Google 的关系
- 歪曲输出或衍生品的来源;
- 散布误导性的专业知识或本事主张,特别是在敏感领域(比方健康)
- 在影响物质或个人权利或福祉的领域(比方医疗保健)做出决策。
- 进行或帮忙伤害、非法或恶意活动,
Reference
- https://www.nature.com/articles/s41586-024-07487-w
- AlphaFold3服务器超详解 | 一文看懂哪些能猜测哪些不能猜测!:服务器FAQ模块的翻译
- AlphaFold3结果看不懂?一文讲清什么是pLDDT,PAE, pTM 与 ipTM:参照AF2解读置信度
- AlphaFold3及其与AlphaFold2相比的改进:算法先容
- AlphaFold3|万字长文解读
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。 |