基因線上很榮幸專訪百圖生科(BioMap)共同創辦人暨執行長劉維, 在 AI 結合生技產業方興未艾之際, 剖析 AI 模型導入新藥開發的契機與挑戰。帶著對生命科學產業基礎大模型的使命感,百圖生科應運而生,劉執行長指出,當前三大挑戰包括:認知落差、驗證成本與資料不足。「五年前只有百圖生科相信 AI 基礎大模型能做藥,但現在很多客戶也開始相信,甚至用他們自己的實驗室去驗證設計結果。然而關鍵是必須明確了解 AI 真正能做到什麼,做不到什麼,現在有些藥廠對 AI 的期望過高,導致過度樂觀這值得警惕。」他強調。
從風投到風口,百圖生科懷揣 AI 大模型初心
劉執行長談及過往在百度風投(Baidu Venture)及聯想之星(Legend Star Ventures)投資 AI 與生技領域的經驗, 20 年來投資全球 400 多間公司,但他最後還是決定和夥伴創立一家新公司,也就是現在的百圖生科。「這十年來我們投資過的 AI 生技公司很多,但我認為它們大多還是偏小型,小不是指公司規模小,而是 AI 模型本身的規模很小。」
他指出,多數公司是針對某個生命科學的單一題目,做出一個小規模、乾淨且監督式訓練的模型。例如 AlphaFold 針對蛋白質結構預測,整個訓練資料庫也就只有約 20 萬筆結構資料,雖然這已經算業界非常大的資料庫,而他認為早期 AI 生技公司大多是一家公司處理一個問題,一個任務一個模型,這是其侷限。
然而,基礎模型(foundation model)橫空出世徹底改變這一切 。2020 年百圖生科創立,剛好是 GPT-3 推出的同年,劉執行長不諱言,當時他們懷揣想做出生命科學領域裡第一個、也是最大規模基礎模型的念想,不是用論文也不是用教科書建立的模型,而是基於「生命語言」—— 基因序列、蛋白質序列等數據來訓練的基礎大模型。
一項 xTrimo 核心技術,多種模態,百種任務應用
百圖生科於今年 3 月 17 日在輝達(NVIDIA)GTC 大會,發表名為 xTrimo V3 的跨模態生命科學基礎大模型,涵蓋 DNA、RNA 與蛋白質等多種模態。劉執行長表示已投入超過 2 億美金,從建立全世界第一個 1000 億參數的生物基礎模型,到現在發展到第三代最新版本,規模達到 2100 億參數,訓練資料點數高達 10 兆。憑藉這個基礎,已建立超過 200 個任務導向的最佳模型,含括蛋白質、DNA、靶點發現、系統生物學、新體學預測與數據分析等等。還可以實現多目標優化與生成式藥物設計,特別適合用於新型態蛋白質藥物設計,以及免疫治療或找尋癌症新靶點。
談及旗下計畫,「我們不是單純『加速』藥物設計,而是用 AI 模型來『生成』新東西。例如針對 G 蛋白偶聯受體(GPCR)這種傳統免疫篩選很難抓到的複雜靶點,可以直接設計出能精準對應特定抗原決定位(epitope)的抗體。」
「另外一個方向是『可程式化抗體』或『可程式化藥物』,意思是能讓藥物具備感測能力,例如當腫瘤微環境裡的基質金屬蛋白酶(MMP)濃度變高時,就啟動 A 機制,否則啟動 B 機制,這都要靠 AI 來設計控制模組與感測器。」執行長補充道。
AI 導入新藥開發,三大挑戰橫亙
劉執行長強調當前 AI 導入生技新藥開發趨勢下,仍有三大挑戰:
一、認知落差。以前藥廠不相信 AI,現在又太過樂觀,以為丟數據給 AI 模型就能產出一款新藥,但現實仍需模型微調(fine-tuning)與實驗驗證等流程,不能一步登天。
二、驗證成本與週期。執行長表示現實中的生成式設計是從 0 到 1,要合成化合物、做活體試驗,非常花錢花時間,現有的產業鏈也不足以支持快速循環。
三、資料不足。蛋白質序列的資料很多,但細胞層級的資料,特別是單細胞體學或 CRISPR (clustered regularly interspaced short palindromic repeats)相關資料,還不夠豐富價格也很貴,還需等待科技進一步發展。
營運布局中美,百圖生科盼望 AI 新藥走入臨床
談及營運重心布局,劉執行長表示,先前主要營運基地位於北京與美國帕羅奧圖(Palo Alto),直到最近才把香港設為創新中心,因為這裡便於連接國際,是個「超級連接器」(superconnector)。但研發與商業主體還是集中在北京與帕羅奧圖,以及中國其他城市如蘇州。
那百圖生科未來五年有什麼目標?基因線上團隊問道。
「我們希望接下來五年,能見證第一批『純 AI 設計』的藥物進入臨床第一期甚至第二期。目前我們或合作夥伴已經有生成不少分子進入候選階段,有些也已經開始臨床前實驗。五年可能還不足以走完新藥開發的完整流程,但我們相信至少能看到實質臨床結果,一個真正用 AI 做出首創新藥(first-in-class)的案例。」劉執行長盼望見證 AI 成果落地臨床試驗,正如當年百圖生科創立初心,一路走來築夢踏實。