蛋白质结构预测 50 年难题? DeepMind 新一代 AI 迎刃而解!

0

蛋白质是调控人体、病毒、细菌等所有生物行为的微观因子。它们从一串胺基酸序列开始,然后扭曲并折叠成特定的 3D 形状。预测蛋白质折叠的形状非常重要,因为它决定了蛋白质的功能,几乎所有疾病(包括癌症和痴呆症)都与蛋白质的功能有关。

X 光绕射、核磁共振光谱和冷冻电子显微线为主要鉴定蛋白质结构的工具

从 1950 年代开始,使用 X 光绕射结晶的蛋白质并将衍射光转化为蛋白质原子坐标的技术,确定了蛋白质的第一个完整结构。随后,核磁共振光谱技术的发展,让蛋白质结构解密更近一步,二种技术揭开大部分已知的蛋白质结构。但是在过去的十年中,冷冻电子显微术( Cryo-electron microscopy, cryo-EM)已成为许多结构生物学实验室的首选工具。

然而,对于生物学科学家来说,鉴定蛋白质的精确形状通常需要数月、数年甚至数十年的实验,成功需要技巧、智慧和运气,甚至有时永远不会成功。

延伸阅读:首次解析出端粒酶结构! 抗老化及抗癌的新时代来临?

DeepMind AI 软件可望解决蛋白质折叠难题

11 月 30 日,Alphabet 旗下的 DeepMind 公布一套 AI 系统 AlphaFold,能快速准确预测蛋白质折叠结构,以及几天内折叠的变化,并且已经获得蛋白质结构预测评估权威机构(Critical Assessment of protein Structure Prediction, CASP)的认可。AlphaFold 可望解决了 50 年多来蛋白质结构解密的困境。

早在 2018 年的 CASP 蛋白质结构预测竞赛,DeepMind 已使用 AlphaFold 来预测蛋白质结构,结果优于所有其他竞争对手,但其准确性主要指标 GDT (Global Distance Test)中位数不到 60,其他对手的 GDT 全低于 50。GDT 可以大致地被认为是胺基酸残基在阈值距离内与正确位置的百分比,GDT 需 90 以上,才能被认为是与实验方法得到的结果相近的。因此,一代 AlphaFold 离解决最终问题还很遥远。

经过 2 年的努力,DeepMind 工程师开发出最新的 AlphaFold 系统,在第 14次 CASP 评估中的 GDT 总体中位数为92.4 GDT,其他团队仅 70 分上下。此结果意味着 AlphaFold 预测的平均标准误差(root mean square error, RMSD)仅为0.16 nm,相当于一个原子的宽度。

即使对于最困难的蛋白质预测目标,也就是最具挑战性的自由建模类别中的蛋白质 ,AlphaFold的 GDT 中位数也达到 87.0。

延伸阅读:RNA 和蛋白质如何互动? 巨大拼图告诉你!

二代 AlphaFold 使用全新的注意力神经网络系统

折叠的蛋白质可以被视为“空间图”,其中胺基酸残基是结点,边缘将残基紧密相连。该图对于理解蛋白质内的物理相互作用及其进化历史非常重要。DeepMind 工程师又替 AlphaFold 建立了一个新的注意力神经网络系统,经过端到端的训练来试图解释该图的结构,同时对所构建的隐式图进行推理。它使用多重序列对齐(multiple sequence alignment, MSA)和胺基酸残基对的表示来精进这个过程。

透过重复此过程,该系统可以对蛋白质的潜在物理结构进行强有力的预测,并能够在几天之内确定精确性高的结构。此外,AlphaFold 可以使用内部信赖度量测来预测每个预测的蛋白质结构的哪些部分是准确的。

他们从不同资料蛋白质数据库中选取 170000 种已知蛋白质结构和未知结构蛋白序列,进行训练。它使用了约 128 个  TPUv3 内核(大约相当于100-200个GPU),运行了几周,在当今机器学习中使用的大多数大型最新模型的情况下,这是相对适中的计算量。与 CASP13 AlphaFold 系统一样,他们正在撰写有关该系统的论文,以适时投稿给同行审查期刊。

AlphaFold 应用

德国图宾根马克斯普朗克发展生物学研究所 Andrei Lupas 博士表示:“过去我们花了十年时间尝试破解的某些细菌蛋白质的结构,但 AlphaFold 在半小时内为我们提供了结构。”

2020 年武汉肺炎爆发初期,DeepMind 也利用 AlphaFold 预测了 SARS-CoV-2 的几种蛋白质结构,包括 ORF3a、ORF8 等。尽管这些蛋白结构具有挑战性且相关序列很少,但与实验确定的结构相比,AlphaFold 在 2 个预测中均获得了很高的准确性。

延伸阅读:棘状蛋白与 ACE2 结合有 10 种结构变化?破解新冠病毒感染过程

未来进展

然而,AlphaFold 并不能完全取代 X 光绕射和冷冻电子显微线来解密蛋白质结构。但它可作为一个帮助者,下一步可望解密人类中数千种未知蛋白的功能,并弄清人与人之间的差异性,以及解盲外来病原体的蛋白结构,进而替未来疾病和药物发现在旷野开道路,在沙漠开江河。

参考资料:
1. https://deepmind.com/blog/article/alphafold-a-solution-to-a-50-year-old-grand-challenge-in-biology
2. https://www.nature.com/articles/d41586-020-03348-4

©www.geneonline.news. All rights reserved. 基因线上版权所有 未经授权不得转载。合作请联系:service@geneonlineasia.com

Share.
error: 注意: 右键复制内容已停用!