mini-rollout: Several of the heads require predicted coordinates, therefore at training time we do a short rollout of the Diffusion Module from pure noise with 20 steps. 用这里提取的结构来训练 confidence head。
pLDDT
衡量什么:Predicted local distance difference test,猜测仅考虑到聚合物距离的 LDDT 分数,值越高表示置信度越高。 对于配体原子,仅考虑配体原子与聚合物之间的偏差,而不是配体原子之间的其他偏差。
怎么算:对于原子 l l l, lddt l = ∑ m ∈ R 1 4 ∑ c ∈ { 0.5 , 1 , 2 , 4 } d l m < c \operatorname{lddt}_l=\sum_{m \in R} \frac{1}{4} \sum_{c \in\{0.5,1,2,4\}} d_{l m}<c lddtl=∑m∈R41∑c∈{0.5,1,2,4}dlm<c
d l m d_{l m} dlm:原子 l l l和原子 m m m的距离in the mini-rollout prediction。 m m m必要满足以下要求:
假如 m m m是DNA/RNA,真实结构中原子 l l l和原子 m m m的距离应小于30Å;卵白则是15Å。
衡量什么:Predicted aligned error,猜测结构中两个token之间的相对位置和方向的偏差(the error of one token when aligned according to the frame of another)
怎么算: PAE i j = ∑ b = 1 64 Δ b p i j b \operatorname{PAE}_{i j}=\sum_{b=1}^{64} \Delta_b p_{i j}^b PAEij=∑b=164Δbpijb
Δ b \Delta_b Δb: distance bin centers
对于卵白质和核酸,PAE 评分本质上与 AlphaFold2 相同,其中偏差是相对于由卵白质主链构建的框架来丈量的。对于小分子和翻译后修饰,从参考构象异构体的最相近原子为每个原子构建框架。
对比其他模型:RoseTTAFold2NA(RFAA精度低于RoseTTAFold2NA),AIchemy_RNA2(the best AI-based submission in CASP15)
指标:针对复合物是iterface LDDT,单体RNA仅为LDDT
数据集:PDB数据库中卵白-RNA,卵白-dsDNA;CSAP15比赛的RNA单体
比较结果:
spurious structural order (hallucinations) in disordered regions:重要是具有非常低pLDDT和猜测中位置差别等的虚假α螺旋,缺乏AlphaFold 2在无序地区产生的典型丝带状外观。
- use distillation training from AlphaFold 2 predictions
- add a ranking term to encourage results with more solvent accessible surface area
- 无序地区的存在影响附近的pLDDT,去除无序尾部可以更清晰地表现有序地区的置信度。