在人工智慧(Artificial Intelligence, AI)與機器學習(Machine Learning, ML)快速整合進科學研究的今日,高品質且大規模的訓練資料集變得至關重要。由 Meta 與美國勞倫斯柏克萊國家實驗室(Berkeley Lab)攜手領導的「開放分子 2025 資料集」(Open Molecules 2025 Dataset,簡稱 OMol25)正式問世,為量子化學模擬與計算科學領域帶來前所未有的突破。
跨越理論與實務的巨大橋樑:OMol25 為先進機器智慧鋪路
在追求「先進機器智慧」(Advanced Machine Intelligence, AMI)的道路上,Meta Fundamental AI Research(FAIR)團隊不僅致力於語言處理與神經科學,更積極投入分子層級的設計與模擬研究。最新釋出的「開放分子 2025 資料集」(Open Molecules 2025 Dataset, OMol25)則是推動這一領域的關鍵成果。
OMol25 是目前最大且最具多樣性的高準確度量子化學計算資料集之一,涵蓋生物分子(biomolecules)、金屬錯合物(metal complexes)與電解質(electrolytes),並提供超越以往分子模擬尺度的參考資料。總計超過 8,300 萬個分子系統與 1 億筆混成密度泛函理論(hybrid Density Functional Theory, hybrid DFT)模擬資料,所耗費的運算資源更高達 60 億核心小時(CPU core-hours),展現 Meta 在基礎科學與超級運算實力的深度整合。
ORCA 6.0.1 加持下的大規模模擬實現,突破過往極限
此次 OMol25 的構建仰賴先進的量子化學軟體 ORCA(Version 6.0.1),該套件由德國弗萊堡資料與計算科學中心(FACCTS)長年開發,具備模擬大型原子系統的能力。其高效能演算法如 RIJCOSX(Resolution-of-Identity for Coulomb and Chain-of-Spheres Exchange)讓大型分子系統的混成 DFT 模擬得以實現,這在過去幾乎是不可能的任務。
相較過去僅支援 20 至 30 個原子的分子資料集,OMol25 將模擬尺度提升 10 倍之多,並涵蓋多種元素間的複雜交互作用,讓它成為有史以來最豐富的分子資料集之一,不僅提供研究者前所未有的模擬精度,也開啟分子與材料設計的新視野。
UMA 模型與開放生態系:從基礎研究走向全產業應用
除了 OMol25,Meta 亦同步釋出其通用原子模型(Universal Model for Atoms, UMA),該模型可預測原子層級的行為,為機器學習在分子與材料研究中的應用立下新標竿。UMA 訓練基礎涵蓋過去五年間 Meta 所釋出的各大資料集,包括 Open Catalyst、Open DAC、Open Materials 等,資料量超過 300 億個原子。此一通用模型可作為研究者的基礎平台,進行各式精細調校與應用開發。
值得一提的是,Meta 在這項計畫中結合來自普林斯頓大學(Princeton University)、Genentech(羅氏集團成員)、史丹佛大學、劍橋大學、卡內基美隆大學、紐約大學、洛斯阿拉莫斯國家實驗室(Los Alamos National Laboratory)與柏克萊加州大學等頂尖機構的力量,展現企業與學研界之間的深度協作模式。
隨著 Meta FAIR 與美國勞倫斯利弗摩國家實驗室(Lawrence Livermore National Laboratory)共同推展 UMA 與 OMol25 至更多分子類型,如聚合物(polymers),這些資源預計將引領未來數十年在藥物研發、能源儲存與氣候變遷緩解方面的技術革新。
OMol25 與 UMA 的釋出,不僅是資料與模型的里程碑,更是全球科學界邁向原子尺度設計與模擬的共同基石。從模擬 8,300 萬個分子、耗用 60 億核心小時,到結合跨國學研機構的合作網絡,將 AI 驅動的科學研究推向極限邊界。透過這些開放資源,全球研究者將能以更低門檻參與尖端科學,加速創新循環,也為人類理解微觀世界與宏觀影響建立更穩固的連結。
