百圖生科(BioMap)於 17 日在輝達(NVIDIA)GTC 大會,發表名為 xTrimo 的跨模態生命科學基礎大模型,涵蓋 DNA、RNA、蛋白質、細胞、生物文本與生物系統等七大模態。透過圖形處理器(GPU)加速運算,以 FP8 精度最佳化多專家(MOE)大型模型的訓練,並基於輝達的 Megatron 框架打造專為生命科學領域設計的統一多模態訓練框架。此外,百圖生科建置了結合生物與人工智慧(AI)的分散式推理引擎,大幅提升產業智慧化轉型的速度。
xTrimo 涵蓋 7 種特化模態,應用生醫領域不同任務
百圖生科模型涵蓋 7 種特化模態。(來源:百圖生科)
1. xTrimoDNA:
具有長讀取、長定序技術能夠一次讀取較長的 DNA 片段,有助於解決複雜基因組區域(如重複序列或結構變異)的分析難題,也包含基因組中潛在的、不易被直接觀察到的信息或模式。上限為序列長度 128,000 的鹼基。
2. xTrimoRNA:
具有模擬 RNA 轉錄和分析RNA結構相關功能,可以有效處理非編碼區的解讀任務。
3. xTrimoProtein:
能夠理解和生成單體蛋白的設計,包括蛋白的結構、特性與功能。
4. xTrimoCell:
模擬單細胞基礎模型,擅於處理細胞目標、調控等相關任務。
5. xTrimoChem:
模擬小分子與蛋白之間的交互作用,並且適合小分子藥物設計任務,還可提供視覺化過程供研究人員檢視。
6. xTrimoPPI:
模擬蛋白質與蛋白質的交互作用,可以在藥物設計過程中模擬蛋白質親和力等參數。
7. xTrimoSystem:
整合了 AI 模型和生物數據洞察,支援高通量實驗驗證,適用於基因體學、轉錄體學和蛋白質體學等領域。講者表示該模態適合用於免疫學相關任務。
Bio LLM 比一般大語言模型更需生醫資訊內核
百圖生科橫向比較 BioLLM 與 LLM 相同及相異處。(來源:百圖生科)
演講中百圖生科副總經理 張曉明指出,算力方面,BioMap 的生物大語言模型(Bio LLM)與一般大語言模型要求相同,然而在驗證集、模型、數據與應用方面兩者大不相同。驗證方面,濕實驗室(Wet Lab)驗證過程是必須的,研究人員將計算模型,通過實際生物或化學實驗來驗證其準確性和可靠性。而模型也必須特化成生物機制為主的結構,生物醫學組學資訊更是必須取代一般自然語言文本,成為生物大語言模型的訓練基礎,應用層面上,特化後的模型更適合藥物設計等生醫相關任務。
蛋白設計異構推理流程,應考慮全局速度而非單一環節
當談及異構計算方面,張曉明強調生物 AI 融合異構推理引擎,不能只考慮單點 CPU 或 GPU 速度,全局效率更為重要。以蛋白質設計為例,多序列比對(MSA)、親和力與表現量等多重環節的效率都要全盤考慮,才能建構良好項目流程。
此外,他也強調,AI 生成式模型的精準程度和效率決定後續流程的難易與否,驗證過程更是要考量到是否可以視覺化呈現結果,並且滿足自動化高通量的要求,經過合理的立項探索直至驗證結果,反覆迭代之後方可得到值得信賴的模型,也才能夠在類似高性能蛋白質結構預測的任務中,使小蛋白設計時間從 10.8 年縮短至 13 天。
參考資料:
1.https://register.nvidia.com/flow/nvidia/gtcs25/vap/page/vsessioncatalog?search=S71836&tab.catalogallsessionstab=16566177511100015Kus
2.https://xtrimo.biomap.com/