50 年未解之謎,蛋白質摺疊在 AI 協助下終撥雲見日?

0

2021 台灣醫療科技展於近日落幕,其中展會最大亮點為 AI (Artificial Intelligence) 在醫療技術與研究上的應用。

蛋白質摺疊是一個自發性的過程,理論上,從胺基酸序列摺疊出蛋白質最後的 3D 結構會有無限多種可能。然而,在細胞裡蛋白質摺疊是瞬間就發生的,表示蛋白質摺疊並沒有試錯(Trial-and-Error)的過程,而這正和利文索爾悖論(Levinthal Paradox)實驗所述的相同。據馬里蘭大學(University of Maryland)結構生物學家 John Moult 所言:「為解決這個已困擾 50 年的問題,許多人都傷透腦筋。」

蛋白質是細胞的步兵,功能在於執行核酸編碼的指令。蛋白質獨特的 3D 組成使他們能有多樣的構形並表現功能。只要透過蛋白質的構形便能知道它在細胞裡所執行的功能。具體來說,構形會決定蛋白質如何和其他蛋白質產生交互作用,此外,構形也能確認哪裡才是最適合的藥物接合點。

 確定蛋白質結構的實驗方法

1945 年,解開肌紅素與血紅素的結構之謎後,X 射線晶體學的時代降臨。在那之後,各種各樣的蛋白質結構逐一被破解,包括酵素、接受器蛋白、膜蛋白、載體蛋白與轉錄因子。

然而,欲獲得品質好的晶體,使用 X 射線仍受阻礙。1970 年代,電子顯微鏡首次使用在溶夜裡拍攝蛋白質,但到 1990 年便被冷凍電子顯微技術(Cryogenic Electron Microscopy,簡稱 Cryo-EM)取而代之。自此,在模擬蛋白質構形和微米尺度的細胞結構上皆取得大幅度進步,但因為基礎設施、操作技述與時間的限制,僅能破解出 35% 的人類蛋白質。

延伸閱讀:AI 製藥趨勢來襲,翻轉傳統新藥研發流程

CASP 競賽,各方好手誰能拔得頭籌?

自 1990 年代以來,多種專業領域人員投入無數方法在預測蛋白質結構。而計算生物學家根據實驗確定的結構將進化保守的、序列主導的蛋白質模體(Motif)/ 結構域(Domain)組合起來,以開發預測蛋白質結構的算法。

其中一個早期試驗即是於 1994 年開始執行的蛋白質結構預測技術的關鍵測試(The Critical Assessment of protein Structure Predictio,簡稱 CASP)競賽。這是首個大規模,且多中心的實驗,實驗欲透過比較模擬、從頭起算法(Ab Initio)折疊、摺疊辨識法與穿針引線法(Threading)來預測蛋白質結構,主要是比較已知和待測的蛋白質有多少百分比相似性來預待測蛋白質可能的折疊。

當然也有參加者實施上述以外的方法在這兩年舉辦一次的 CASP 競賽上,如對接(Docking)、 序列結構比對(Sequence-to-Structure Alignment)、關聯預測(Contact Prediction)、新摺疊預測(‘New Fold’ Prediction)、無序區域構型(Disordered Region Modeling)等等。

加入基因組學和蛋白質體學的資訊協助之後,後來的 CASP 便開始使用深度學習與人工智慧應用在收集蛋白質的訊息上,另外,也使用到同源(Homology)、多物種取得的序列、功能域組織(Domain Organization),與保守模體(Conserved Motifs)的資料。 

AlphaFold:制霸全場的參賽者?

2018 年,Google 旗下公司 DeepMind 帶著 AlphaFold 演算法參加第 13 屆 CASP,並在非模板蛋白質的預測與精準度上取得驚人的成果。2020 年釋出的 AlphaFold 二代,結合神經網絡後,便大大超越待測蛋白質的實驗室數據。

AlphaFold 難能可貴之處在於它成功做到不用比較模版就能預測蛋白質結構,這顯示我們現在僅需要胺基酸序列就可以預測任一蛋白質的結構。

前人在 CASP 結構預測實驗上的努力,以及眾多貯存在蛋白質資料庫(Protein Data Bank)的結構資料,使 AlphaFold 得以站在巨人的肩膀上。該演算法經過數次微調之後,現在不需要可用的模板就能在原子解析度(Atomic Resolution)下模擬出蛋白質。

在預測蛋白質的某些區域上甚至擁有較高的信心指數,這無疑是好的開始,對於蛋白質看起來如何,以及蛋白質與蛋白質是如何產生交互作用等等問題將會迎刃而解。

「這可是大事件,以某種程度來說,(蛋白質摺疊)問題已經被破解了。」 CASP 的共同創辦人 John Moult 在《Nature》一篇新聞報導中說道。

但 AlphaFold 非萬能

儘管結構生物學領域普遍對 AlphaFold 的可能性持正向態度,但從演算法算出來的結果畢竟只是預測,仍需要和實驗結果做比較,或驗證實驗證據,如寡聚體狀態(oligomeric state)、複合物媒介的改變(Complex-Mediated Changes)與結構域組織等等。

該演算法存在以下痛點:

  1. 活性(Flexible)區域與無序(Disordered)區域:在預測以上二者區域的結構上的信心指數較低。有些蛋白質的活性區域或無序區於對蛋白質動力學很重要,在這樣的情況下使用實驗證據較能提供有用的資訊。
  2. 多重構相(Multiple Conformations):AlphaFold 通常僅依照序列預測出單一構相,但在蛋白質活動中可能會產生構相改變,這時候原位 cryo-EM 或其他方法都比 AlphaFold 好用得多。
  3. 膜蛋白:膜蛋白會橫跨整個細胞膜,且可能具有細胞內、跨膜或細胞外的結構域。AlphaFold 可能沒辦法精準預測這些在細胞裡的結構域之空間排列。
  4. 多重蛋白質複合物:AlphaFold 一次使用僅限於一種蛋白質,但複合物次單元間的交互作用可能導致構相有變,有些蛋白質是應用在蛋白質 – DNA / RNA / 配體(Ligands)複合物中。
  5. 突變/ 配體:AlphaFold 無法預測突變效應與配體結合。

2021 年,Deepmind 與 EMBL-EBI 攜手將 98.5% 人類蛋白質的原始碼與數據庫公諸於世,其中所用的 AI 技術則公佈於《Nature》。自此之後,結構生物學家便著手使用計算工具來形象化蛋白質,將預測出的結構與透過實驗實際導出的結果兩相結合,來模擬龐大的蛋白質網絡。科學家們熱議 AlphaFold 預期能在哪些應用上有突破,如設計融合蛋白(Fusion Proteins)的連接子(Linker)、體外突變掃描,以及在總體基因學(Metagenomic)掃描中識別出蛋白質等等。

AlphaFold 在藥物研發、疾病研究、療法開發上的應用前景可期。此外,還可以延伸至其他物種的蛋白質預測,從而確定病毒和細菌中致病蛋白質的結構,以助傳染病研究一臂之力。

AlphaFold 搶佔先機

儘管仍有無法突破之處,但結合實驗數據與 AlphaFold 的預測已能非常有效地填補以往的缺口。執行 AlphaFold 僅需數分鐘,而完成一次實驗卻要花費數年,因此,AlphaFold 的出現將為複雜蛋白質提供更好的研究設計,並加快研究流程。

預測結果可以做為假想物,代替臨床真正的蛋白質來模擬交互作用以及分子動力學實驗,以建構出結構與功能之間的關係。有單一蛋白質的 3D 模型幫助,研究者便能專心致志研究大型多蛋白的組合,以及如何和配體產生交互作用。

蛋白質在生物系統中推動大部分生理反應,因此,應用於健康、疾病、食品科學、農業、合成生物的蛋白質工程便能透過確定蛋白質結構來取得巨大進展。

原文:Sahana Shankar

編譯:Lauren Kao

參考資料:

  1. https://www.nature.com/articles/d41586-020-03348-4
  2. https://www.nature.com/articles/s41586-021-03828-1
延伸閱讀:「液態活檢」最新趨勢!開發早期癌症生物標記、高精準度微流體細胞切片

©www.geneonline.news. All rights reserved. 基因線上版權所有 未經授權不得轉載。合作請聯繫:service@geneonlineasia.com

一指訂閱
接軌全球生技醫療

週週接收編輯精選文章
為你掌握全球生醫趨勢

訂閱電子報,接軌全球生技醫療