蛋白質結構預測 50 年難題? DeepMind 新一代 AI 迎刃而解!

0

蛋白質是調控人體、病毒、細菌等所有生物行為的微觀因子。它們從一串胺基酸序列開始,然後扭曲並折疊成特定的 3D 形狀。預測蛋白質折疊的形狀非常重要,因為它決定了蛋白質的功能,幾乎所有疾病(包括癌症和癡呆症)都與蛋白質的功能有關。

X 光繞射、核磁共振光譜和冷凍電子顯微線為主要鑑定蛋白質結構的工具

從 1950 年代開始,使用 X 光繞射結晶的蛋白質並將衍射光轉化為蛋白質原子坐標的技術,確定了蛋白質的第一個完整結構。隨後,核磁共振光譜技術的發展,讓蛋白質結構解密更近一步,二種技術揭開大部分已知的蛋白質結構。但是在過去的十年中,冷凍電子顯微術( Cryo-electron microscopy, cryo-EM)已成為許多結構生物學實驗室的首選工具。

然而,對於生物學科學家來說,鑑定蛋白質的精確形狀通常需要數月、數年甚至數十年的實驗,成功需要技巧、智慧和運氣,甚至有時永遠不會成功。

延伸閱讀:首次解析出端粒酶結構! 抗老化及抗癌的新時代來臨?

DeepMind AI 軟體可望解決蛋白質折疊難題

11 月 30 日,Alphabet 旗下的 DeepMind 公布一套 AI 系統 AlphaFold,能快速準確預測蛋白質折疊結構,以及幾天內折疊的變化,並且已經獲得蛋白質結構預測評估權威機構(Critical Assessment of protein Structure Prediction, CASP)的認可。AlphaFold 可望解決了 50 年多來蛋白質結構解密的困境。

早在 2018 年的 CASP 蛋白質結構預測競賽,DeepMind 已使用 AlphaFold 來預測蛋白質結構,結果優於所有其他競爭對手,但其準確性主要指標 GDT (Global Distance Test)中位數不到 60,其他對手的 GDT 全低於 50。GDT 可以大致地被認為是胺基酸殘基在閾值距離內與正確位置的百分比,GDT 需 90 以上,才能被認為是與實驗方法得到的結果相近的。因此,一代 AlphaFold 離解決最終問題還很遙遠。

經過 2 年的努力,DeepMind 工程師開發出最新的 AlphaFold 系統,在第 14次 CASP 評估中的 GDT 總體中位數為92.4 GDT,其他團隊僅 70 分上下。此結果意味著 AlphaFold 預測的平均標準誤差(root mean square error, RMSD)僅為0.16 nm,相當於一個原子的寬度。

即使對於最困難的蛋白質預測目標,也就是最具挑戰性的自由建模類別中的蛋白質 ,AlphaFold的 GDT 中位數也達到 87.0。

延伸閱讀:RNA 和蛋白質如何互動? 巨大拼圖告訴你!

二代 AlphaFold 使用全新的注意力神經網路系統

折疊的蛋白質可以被視為「空間圖」,其中胺基酸殘基是結點,邊緣將殘基緊密相連。該圖對於理解蛋白質內的物理相互作用及其進化歷史非常重要。DeepMind 工程師又替 AlphaFold 建立了一個新的注意力神經網路系統,經過端到端的訓練來試圖解釋該圖的結構,同時對所構建的隱式圖進行推理。它使用多重序列對齊(multiple sequence alignment, MSA)和胺基酸殘基對的表示來精進這個過程。

透過重複此過程,該系統可以對蛋白質的潛在物理結構進行強有力的預測,並能夠在幾天之內確定精確性高的結構。此外,AlphaFold 可以使用內部信賴度量測來預測每個預測的蛋白質結構的哪些部分是準確的。

他們從不同資料蛋白質資料庫中選取 170000 種已知蛋白質結構和未知結構蛋白序列,進行訓練。它使用了約 128 個  TPUv3 內核(大約相當於100-200個GPU),運行了幾週,在當今機器學習中使用的大多數大型最新模型的情況下,這是相對適中的計算量。與 CASP13 AlphaFold 系統一樣,他們正在撰寫有關該系統的論文,以適時投稿給同行審查期刊。

AlphaFold 應用

德國圖賓根馬克斯普朗克發展生物學研究所 Andrei Lupas 博士表示:「過去我們花了十年時間嘗試破解的某些細菌蛋白質的結構,但 AlphaFold 在半小時內為我們提供了結構。」

2020 年武漢肺炎爆發初期,DeepMind 也利用 AlphaFold 預測了 SARS-CoV-2 的幾種蛋白質結構,包括 ORF3a、ORF8 等。儘管這些蛋白結構具有挑戰性且相關序列很少,但與實驗確定的結構相比,AlphaFold 在 2 個預測中均獲得了很高的準確性。

延伸閱讀:棘狀蛋白與 ACE2 結合有 10 種結構變化?破解新冠病毒感染過程

未來進展

然而,AlphaFold 並不能完全取代 X 光繞射和冷凍電子顯微線來解密蛋白質結構。但它可作為一個幫助者,下一步可望解密人類中數千種未知蛋白的功能,並弄清人與人之間的差異性,以及解盲外來病原體的蛋白結構,進而替未來疾病和藥物發現在曠野開道路,在沙漠開江河。

參考資料:
1. https://deepmind.com/blog/article/alphafold-a-solution-to-a-50-year-old-grand-challenge-in-biology
2. https://www.nature.com/articles/d41586-020-03348-4

©www.geneonline.news. All rights reserved. 基因線上版權所有 未經授權不得轉載。合作請聯繫:service@geneonlineasia.com

一指訂閱
接軌全球生技醫療

週週接收編輯精選文章
為你掌握全球生醫趨勢

訂閱電子報,接軌全球生技醫療