當垃圾 DNA 發揮作用!AlphaGenome 讓 98% 非編碼區不再黑箱

0

在人類基因體計劃完成後,基因體曾被視為「生命藍圖」。但隨研究推進,科學界逐步意識到:這份「遺傳說明書」真正難解部分,不在蛋白質編碼區,而在其餘龐大非編碼區。人類基因體約 30 億個鹼基對(base pairs, bp),僅約 2% 直接用於編碼蛋白質,剩餘 98% 過去常被稱為「垃圾 DNA」,如今更常被視為一套複雜調控操作系統,決定基因何時、何地、以何種強度表達。 

Google DeepMind 於 2026 年 1 月 28 日發布 AlphaGenome,被形容為基因體研究的「AlphaFold 時刻」:若 AlphaFold 對應蛋白質折疊結構, AlphaGenome 則試圖以通用「序列到功能流形」(Sequence-to-Function Manifold)破解調控代碼,並把長距離序列理解與單鹼基解析度預測拉到同一個模型框架內。

AlphaGenome 功能架構剖析(點擊可放大觀看,製圖:吳柏緯)。

非編碼區(Non-coding)不再沉默: 98% 基因體如何成為「調控操作系統」

長期以來,基因體研究與臨床解讀多聚焦蛋白質編碼序列,因為它們較易對應到胺基酸改變與蛋白質功能異常。然而,研究指出非編碼區並非「無用」,而是支配轉錄與調控的關鍵場域,透過調控元件指揮基因表達時空與強度,並可能在不改變蛋白質序列前提下,仍造成顯著生物學效應。

在此脈絡下, AlphaGenome 的定位不僅是再一個預測工具,而是把「調控基因體學」推向更可計算、可模擬方向。研究強調,模型可處理長達 100 萬個鹼基對(1 Mb)序列,並在單鹼基解析度下預測數千種分子特性,這類能力被視為罕見遺傳病診斷、癌症驅動突變識別、合成 DNA 序列設計等工作的新型基礎設施。

從 10 kb 到 1 Mb:基因體 AI 的規模權衡與上下文缺口

在 AlphaGenome 前,序列模型面臨核心技術權衡:上下文長度(context length)與預測解析度(resolution)難以兼得。研究以 BPNet、 SpliceAI 為例,指出早期模型可達鹼基級別精確預測,但輸入序列通常限制在 10 kb 內,因此難以捕捉遠端增強子(Enhancer)與啟動子(Promoter)的遠距離交互作用。後續 Enformer 將感應範圍擴展至 200 kb,但對於覆蓋整體人類調控網路仍不足,因為研究指出: 99% 已驗證增強子—基因對落在 1 Mb 視窗內。

在這樣的尺度脈絡裡, AlphaGenome 被描述為「打破限制」的混合架構:可同時處理 1 Mb 序列,並宣稱在序列長度上達到先前領先者 Borzoi 的 2 倍。研究進一步點出其生物學意涵:遺傳變異可能對鄰近基因影響有限,卻能顯著改變遠端基因活性,若模型上下文不足,容易漏掉真正關鍵的遠端調控訊號與結構性關聯。

混合 U-Net 與 Transformer:把分層調控邏輯「映射」進模型結構

研究將 AlphaGenome 的核心架構比擬為重新構建的 U-Net:在視覺領域常用於精確分割,而此處用於處理線性遺傳代碼並回到高解析度輸出。其設計拆成三個關鍵組件,對應不同尺度的生物訊號:卷積層(Convolutional Layers)擔任初始掃描器,負責偵測短期模式與基序(Motifs),例如轉錄因子結合位點; Transformer 模塊則在編碼器深層運作,讓 1 Mb 序列不同位置能進行資訊通信,並以 128 bp 解析度建模支援長距離的資訊獲取,特別指向增強子—啟動子進行訊息溝通;最後由解碼器與任務特定輸出頭(task-specific heads)上採樣回原始解析度,並對 11 種生物模態產生並行預測。

這套結構被描述為「模擬基因體分層邏輯」:局部 motif 需要高靈敏度,遠距調控則需要跨距離訊息整合,而多任務輸出又要求共享底層表徵、同時保留任務差異。研究亦以「通用序列到功能流形」界定其目標與意圖:並非只在單一讀出(readout)做到最好,而是嘗試用單一框架承接多種調控表現型與變異效應的共同結構。

1 Mb 訓練可行化:序列並行化與 TPUv3 最佳化

為了要能處理 1 Mb 序列,首先會面對的是記憶體與吞吐量挑戰。研究指出, DeepMind 團隊在 JAX 高性能計算框架中開發「序列並行化」(Sequence Parallelism)技術,把 1 Mb 序列拆成 131 kb 區塊,並將計算分散到 8 台互連 TPUv3 設備上,以降低單一裝置負擔並維持訓練效率。這段描述把模型突破,從「架構巧思」延伸到「系統工程」:若沒有對硬體與並行策略的整合, 1 Mb 長度更像理論指標而非可運行產品。

研究也特別提到一個「反直覺」結果:儘管上下文長度與預測複雜度大幅增加,單個 AlphaGenome 模型訓練僅需 4 小時,且消耗計算資源約為原始 Enformer 模型一半。這被用來凸顯架構與系統最佳化重要性:在大規模生物資料上,效能不只靠堆算力,也取決於表示學習與計算路徑設計是否能把「百萬級鹼基對」變成可重複、可擴張的訓練工作負載。

多模態聯合預測:從轉錄、表觀到 3D 結構的一次推斷

研究將 AlphaGenome 描述為可在單一框架內「聯合預測所有評估模態」的第一個模型,並以「瑞士軍刀」比喻其通用性。傳統流程常需分別建立拼接(splicing)、基因表達(gene expression)、染色質結構(chromatin structure)等專門模型,而 AlphaGenome 透過多任務學習(Multi-task Learning)把這些能力整合於同一模型,並同時預測 5,930 條人類基因體軌跡與 1,128 條小鼠軌跡,涵蓋 11 種核心模態。

依研究列舉,輸出範圍包含:轉錄活動訊號(RNA-seq、 CAGE、 PRO-cap),用於定位轉錄起始點與產量;染色質開放性(DNase-seq、 ATAC-seq),用以識別調控開關位置;表觀遺傳標記與轉錄因子(TF)結合模式,描繪整體基因體生化環境輪廓; 3D 基因體結構,生成染色質接觸圖(contact maps)以預測遠距但空間鄰近區域;以及複雜拼接建模,涵蓋剪接位點、使用情況與剪接接合點(splice junctions)坐標與強度。此處關鍵不在清單本身,而在「一次推斷」可同步產生多層訊號,讓研究者能用同一套變異輸入,檢視其在多模態上連鎖反應。

剪接接合點成為亮點:從存在性預測走向定位與強度

在眾多能力中,研究特別凸顯 RNA 剪接建模。剪接是移除內含子、重連外顯子的精密過程,剪接錯誤可導致致病蛋白質生成或基因功能喪失。研究指出, AlphaGenome 首次實現直接從序列預測剪接接合點位置與表達水平,而非僅預測剪接位點是否存在。這意味著模型輸出更接近實驗讀出:不只「哪裡可能剪」,還包含「剪接事件如何呈現」的強度與座標資訊。

研究也把此能力連結到罕見遺傳病場景,舉脊髓性肌萎縮症(SMA)與囊性纖維化為例,指出疾病往往由剪接錯誤引起。並提到 AlphaGenome 能準確識別與剪接離群值相關罕見變異,性能顯著超越 SpliceAI 與 Pangolin 等專門模型。這類描述把「多模態通用模型」與「專門任務 SOTA」之間常見落差縮小,亦回應臨床解讀最常卡住的類型之一:非編碼或同義變異引發的剪接異常。

教師—學生蒸餾法:把臨床可用的穩定性放進訓練流程

若要讓變異效應預測(Variant Effect Prediction, VEP)進入臨床工作流,準確度之外還需要穩健性(Robust)。研究指出, AlphaGenome 增加關鍵訓練階段「教師—學生蒸餾」:先訓練由多個模型組成的「全折疊」(All-folds)教師集成,再把知識遷移到單一學生模型。學生模型學習複製教師集成高品質預測結果,以捕捉不同訓練配置下共識指標,同時在蒸餾過程接觸隨機序列突變與增強處理輸入,迫使模型學會穩定處理序列變化,提高對變異擾動的耐受。

研究並補充蒸餾後效益:模型體積更小、運行更快,可在不到 1 秒產生完整變異效應概況。此處可視為把「可部署性」納入模型設計:臨床或大型篩選常需要高吞吐推斷,若推斷成本過高,即使模型準確也難進入常規流程。蒸餾與擾動訓練的組合,對應「速度」與「穩定」兩個實際應用條件。

基準測試數據:從軌跡預測到致病性分類的跨任務領先

研究提供一組基準測試,以描述 AlphaGenome 在既有任務上的相對表現:在 24 項基因體軌跡預測任務中, 22 項達到或超越現有最強模型;在變異效應預測更具挑戰的 26 項評估中, 25 項領先。研究中列舉一些關鍵指標: RNA-seq 預測皮爾森相關係數 r = 0.86;細胞類型特異性表達相較 Borzoi 提升 14.7%; 3D 接觸圖建模相較 Orca 提升 42.3%; eQTL 符號預測相較 Borzoi 提升 25.5%; ClinVar 變異致病性分類 auPRC = 0.66。

研究也強調 eQTL 符號(direction)預測改進意義:能預測變異使表達增加或減少,對解釋 GWAS 結果至關重要。並指出高解析度與長上下文讓模型更能辨識位於啟動子外、卻透過複雜折疊結構影響表達的隱匿變異。整體而言,這組數字可以讓我們得出一種解釋:模型不只在單一讀出提高相關係數,而是在多層調控與變異解釋上同時推進。

案例研究:以 T 細胞急性淋巴細胞白血病(T-ALL)重現非編碼致癌機制

研究以 T 細胞急性淋巴細胞白血病(T-ALL)展示模型對「非編碼致病機制」的解析。 T-ALL 常與 TAL1 致癌基因異常激活相關;研究人員用 AlphaGenome 分析 TAL1 附近非編碼區,模型在單次推斷中重現已知致病路徑:首先預測特定非編碼插入突變會創建 MYB 轉錄因子結合基序;接著在 TAL1 轉錄起始位點,預測活化型組蛋白標記如 H3K27ac 增加、抑制型標記如 H3K9me3 減少;最後預測該變異導致 TAL1 在特定血液祖細胞強烈激活。

研究把這類推斷視為「在線實驗引擎」潛力:能將原本需數月濕實驗驗證的探索,縮短到數週內完成候選機制定位與優先序排序。值得注意,研究描述重點不在「取代實驗」,而在「先做大規模乾實驗」(in silico experiments)以提升研究效率,讓昂貴實驗資源更集中於高機率機制。

個人基因體學邊界:在 GTEx 上進步顯著,但精準醫療仍需更多資料整合

雖然 AlphaGenome 主要以公共參考基因體數據訓練,研究提到它在個人基因體預測也引發關注。以 GTEx 個人資料獨立評估, AlphaGenome 在 377,857 個基因—組織對預測中,以 3.2 勝率領先 Enformer,預測表達方向勝算比(Odds Ratio)達 3.0;並舉例 CUTALP 基因,相關性從 -0.81 躍升至 +0.82。這些數據被用來支持模型對個體間表達差異的敏感度提升。

同時,研究也保留限制描述:模型在某些預設非線性基因集平均準確率,仍略低於專門用個人水平數據訓練的樹狀模型,如隨機森林(Random Forest)。研究解讀為:通用序列模型掌握調控「語法」,但若要達到個體層級「精準醫療」強度,仍可能需要結合多體學資料或進行特定領域微調。這段安排,使報導能同時呈現突破與現階段邊界,而不把技術推向過度外推。

仍待跨越的技術屏障:長距離衰減、性狀映射與因果推進

研究在展望段落指出幾個仍待克服障礙。首先是長距離效應衰減:雖能處理 1 Mb 上下文,但對超過 100,000 bp 的極遠端交互作用,預測精度會隨距離增加而下降。其次是「分子特徵到性狀」映射落差:模型能預測 RNA 產量、表觀訊號、接觸圖等分子層變化,但尚無法完整解釋這些變化如何轉化為人類性狀或臨床症狀。發育動態、環境因素與基因間上位性(Epistasis)交互作用,也被列為模型未完全涵蓋領域。

對於未來,研究提出幾個發展方向:跨物種(cross-species)擴展以利用演化保守性強化功能理解;更深度多體學集成,把染色質可及性、組蛋白修飾與單細胞轉錄組納入更具背景感知的模型;以及從相關(correlation)推進到因果(causality)的預測能力,使模型更接近「理解」生命代碼邏輯。研究並引用計算生物學家 Anshul Kundaje 觀點,指出這不只是上下文長度量變,而是模型實用性質變,並把願景落在「變異不再長期停留在 VUS」的可解釋新時代。

參考資料:
https://www.nature.com/articles/s41586-025-10014-0?fbclid=Iwb21leAPp1ZxjbGNrA-nVjGV4dG4DYWVtAjExAHNydGMGYXBwX2lkDDM1MDY4NTUzMTcyOAABHvCc66o0ZMaqUU5LzKo6SbIpEeiZp7WrOKiiWROHuRL–dQ_8aQ6HTaHBkHb_aem_s6WgnQLD5Q3driRB7Dmd-w

Share.
error: 注意: 右鍵複製內容已停用!