50 年未解之谜,蛋白质折叠在 AI 协助下终拨云见日?

0

2021 台湾医疗科技展于近日落幕,其中展会最大亮点为 AI (Artificial Intelligence) 在医疗技术与研究上的应用。

蛋白质折叠是一个自发性的过程,理论上,从胺基酸序列折叠出蛋白质最后的 3D 结构会有无限多种可能。然而,在细胞里蛋白质折叠是瞬间就发生的,表示蛋白质折叠并没有试错(Trial-and-Error)的过程,而这正和利文索尔悖论(Levinthal Paradox)实验所述的相同。据马里兰大学(University of Maryland)结构生物学家 John Moult 所言:“为解决这个已困扰 50 年的问题,许多人都伤透脑筋。”

蛋白质是细胞的步兵,功能在于执行核酸编码的指令。蛋白质独特的 3D 组成使他们能有多样的构形并表现功能。只要透过蛋白质的构形便能知道它在细胞里所执行的功能。具体来说,构形会决定蛋白质如何和其他蛋白质产生交互作用,此外,构形也能确认哪里才是最适合的药物接合点。

 确定蛋白质结构的实验方法

1945 年,解开肌红素与血红素的结构之谜后,X 射线晶体学的时代降临。在那之后,各种各样的蛋白质结构逐一被破解,包括酵素、接受器蛋白、膜蛋白、载体蛋白与转录因子。

然而,欲获得品质好的晶体,使用 X 射线仍受阻碍。1970 年代,电子显微镜首次使用在溶夜里拍摄蛋白质,但到 1990 年便被冷冻电子显微技术(Cryogenic Electron Microscopy,简称 Cryo-EM)取而代之。自此,在模拟蛋白质构形和微米尺度的细胞结构上皆取得大幅度进步,但因为基础设施、操作技述与时间的限制,仅能破解出 35% 的人类蛋白质。

延伸阅读:AI 制药趋势来袭,翻转传统新药研发流程

CASP 竞赛,各方好手谁能拔得头筹?

自 1990 年代以来,多种专业领域人员投入无数方法在预测蛋白质结构。而计算生物学家根据实验确定的结构将进化保守的、序列主导的蛋白质模体(Motif)/ 结构域(Domain)组合起来,以开发预测蛋白质结构的算法。

其中一个早期试验即是于 1994 年开始执行的蛋白质结构预测技术的关键测试(The Critical Assessment of protein Structure Predictio,简称 CASP)竞赛。这是首个大规模,且多中心的实验,实验欲透过比较模拟、从头起算法(Ab Initio)折叠、折叠辨识法与穿针引线法(Threading)来预测蛋白质结构,主要是比较已知和待测的蛋白质有多少百分比相似性来预待测蛋白质可能的折叠。

当然也有参加者实施上述以外的方法在这两年举办一次的 CASP 竞赛上,如对接(Docking)、 序列结构比对(Sequence-to-Structure Alignment)、关联预测(Contact Prediction)、新折叠预测(‘New Fold’ Prediction)、无序区域构型(Disordered Region Modeling)等等。

加入基因组学和蛋白质体学的资讯协助之后,后来的 CASP 便开始使用深度学习与人工智能应用在收集蛋白质的讯息上,另外,也使用到同源(Homology)、多物种取得的序列、功能域组织(Domain Organization),与保守模体(Conserved Motifs)的资料。 

AlphaFold:制霸全场的参赛者?

2018 年,Google 旗下公司 DeepMind 带着 AlphaFold 算法参加第 13 届 CASP,并在非模板蛋白质的预测与精准度上取得惊人的成果。2020 年释出的 AlphaFold 二代,结合神经网络后,便大大超越待测蛋白质的实验室数据。

AlphaFold 难能可贵之处在于它成功做到不用比较模版就能预测蛋白质结构,这显示我们现在仅需要胺基酸序列就可以预测任一蛋白质的结构。

前人在 CASP 结构预测实验上的努力,以及众多贮存在蛋白质数据库(Protein Data Bank)的结构资料,使 AlphaFold 得以站在巨人的肩膀上。该算法经过数次微调之后,现在不需要可用的模板就能在原子分辨率(Atomic Resolution)下模拟出蛋白质。

在预测蛋白质的某些区域上甚至拥有较高的信心指数,这无疑是好的开始,对于蛋白质看起来如何,以及蛋白质与蛋白质是如何产生交互作用等等问题将会迎刃而解。

“这可是大事件,以某种程度来说,(蛋白质折叠)问题已经被破解了。” CASP 的共同创办人 John Moult 在《Nature》一篇新闻报导中说道。

但 AlphaFold 非万能

尽管结构生物学领域普遍对 AlphaFold 的可能性持正向态度,但从算法算出来的结果毕竟只是预测,仍需要和实验结果做比较,或验证实验证据,如寡聚体状态(oligomeric state)、复合物媒介的改变(Complex-Mediated Changes)与结构域组织等等。

该算法存在以下痛点:

  1. 活性(Flexible)区域与无序(Disordered)区域:在预测以上二者区域的结构上的信心指数较低。有些蛋白质的活性区域或无序区于对蛋白质动力学很重要,在这样的情况下使用实验证据较能提供有用的资讯。
  2. 多重构相(Multiple Conformations):AlphaFold 通常仅依照序列预测出单一构相,但在蛋白质活动中可能会产生构相改变,这时候原位 cryo-EM 或其他方法都比 AlphaFold 好用得多。
  3. 膜蛋白:膜蛋白会横跨整个细胞膜,且可能具有细胞内、跨膜或细胞外的结构域。AlphaFold 可能没办法精准预测这些在细胞里的结构域之空间排列。
  4. 多重蛋白质复合物:AlphaFold 一次使用仅限于一种蛋白质,但复合物次单元间的交互作用可能导致构相有变,有些蛋白质是应用在蛋白质 – DNA / RNA / 配体(Ligands)复合物中。
  5. 突变/ 配体:AlphaFold 无法预测突变效应与配体结合。

2021 年,Deepmind 与 EMBL-EBI 携手将 98.5% 人类蛋白质的原始码与数据库公诸于世,其中所用的 AI 技术则公布于《Nature》。自此之后,结构生物学家便着手使用计算工具来形象化蛋白质,将预测出的结构与透过实验实际导出的结果两相结合,来模拟庞大的蛋白质网络。科学家们热议 AlphaFold 预期能在哪些应用上有突破,如设计融合蛋白(Fusion Proteins)的连接子(Linker)、体外突变扫描,以及在总体基因学(Metagenomic)扫描中识别出蛋白质等等。

AlphaFold 在药物研发、疾病研究、疗法开发上的应用前景可期。此外,还可以延伸至其他物种的蛋白质预测,从而确定病毒和细菌中致病蛋白质的结构,以助传染病研究一臂之力。

AlphaFold 抢占先机

尽管仍有无法突破之处,但结合实验数据与 AlphaFold 的预测已能非常有效地填补以往的缺口。执行 AlphaFold 仅需数分钟,而完成一次实验却要花费数年,因此,AlphaFold 的出现将为复杂蛋白质提供更好的研究设计,并加快研究流程。

预测结果可以做为假想物,代替临床真正的蛋白质来模拟交互作用以及分子动力学实验,以建构出结构与功能之间的关系。有单一蛋白质的 3D 模型帮助,研究者便能专心致志研究大型多蛋白的组合,以及如何和配体产生交互作用。

蛋白质在生物系统中推动大部分生理反应,因此,应用于健康、疾病、食品科学、农业、合成生物的蛋白质工程便能透过确定蛋白质结构来取得巨大进展。

原文:Sahana Shankar

编译:Lauren Kao

参考资料:

  1. https://www.nature.com/articles/d41586-020-03348-4
  2. https://www.nature.com/articles/s41586-021-03828-1
延伸阅读:“液态活检”最新趋势!开发早期癌症生物标记、高精准度微流体细胞切片

©www.geneonline.news. All rights reserved. 基因线上版权所有 未经授权不得转载。合作请联系:service@geneonlineasia.com

Share.
error: 注意: 右键复制内容已停用!