打造推動精準醫學的要件-姚文萱 博士談NGS資訊分析與管理系統

0

yao2

姚文萱博士

台灣中央研究院生物醫學科學研究所
美國加州大學(柏克萊)生物物理博士

隨著生物醫學愈來愈發達,龐大的資料量也需要透過完整的資訊管理機制,才有利於後續的研究分析與應用。中研院生醫所的生物資訊服務團隊,自2011年便開始提供學術界與產業界一個能夠快速處理NGS (next generation sequencing) 大量序列,並完成變異點偵測與註解的系統,此系統從基因體資料處理、分析到呈現,整體流程從一至兩天縮短到一小時以內。基因線上特別邀請到台灣中研院負責此專案的姚文萱博士,與大家分享NGS資訊分析與管理系統的用途及其重要性。

從NGS資料分析到管理

中研院生醫所生物資訊服務團隊的任務之一,是負責國家基因體醫學研究中心對外的NGS資訊分析服務。近年來國際上推動精準醫學,該領域用到的主要技術就是 NGS,而NGS產出的資料量非常大,超出一般實驗室中個人電腦或工作站的處理能力,且定序完成後的分析、資料管理與儲存都會是很大的挑戰。其中所使用到的主流資訊分析工具,多是由學術界開發,然而學術界通常都是以發表論文為主,並不會特別注重使用上的便利性和優化,以及銜接其他工具的能力好壞,因此入門的門檻較高。此外,NGS產生的大量資料儲存、備份、搬移也衍生出很多維護上的挑戰。

所以,中研院團隊在系統開發的初期,便希望設計與建構一個滿足多數使用者需求的NGS生物資訊分析系統,盡量做到化繁為簡,以容易學習、操作簡單、速度快、維護管理方便、擴充性佳、性能與價格比值高為目標,讓單一實驗室、大型研究單位或企業的研究人員,皆能在不需具備專業資訊背景的條件下,就能直接上手操作並分析與管理資料,降低對資訊人員的依賴。

一套能廣為生物產學界應用的NGS資訊分析與管理系統誕生

目前此新設計建構的軟體名稱暫定為 HiPipe (High Performance Pipelines for NGS Analysis),是一個圖形化和高效能做NGS 資料分析的雲端平台,此系統有幾項主要特色,第一是「容易學習,迅速上手」,不管DNA或RNA 分析,皆可於十分鐘內就學會。第二是要「方便管理與維護」,大部份的NGS資料經由HiPipe系統處理完後,便可在一般的個人電腦上作業。HiPipe系統就像蘋果電腦一樣有良好的整體性,能整合分析所需的軟、硬體,增加操作的流暢性,縮短資料處理時間,讓使用者能將大部分時間投注在分析結果的研究上。第三是「架構具有彈性」,不同使用者對分析速度的需求有差異,例如醫院希望檢測的時候報告可以盡快得到結果;但是研究單位可能明天再看結果也可以接受,所以系統也需要提供彈性調整效能的能力來配合實際需求。

hipipe

工具串接的挑戰

開發一個新的NGS分析系統其實會面臨許多挑戰,所以很多公司採用簡單的架構來建立系統,僅能提供基本分析。而唯有大量人力投入設計與優化工作,系統才能有好的效能與便利性,得以輕鬆處理大基因體 (如人類基因體) 產生的資料。為配合各式各樣的需求,要有許多不同專長的人員合作,例如需要有人瞭解各種不同的演算法才能選擇最適用的,還要有人檢查作業系統版本與各分析工具的相容性;而寫程式的人不只要把工具安裝在機器上,還要瞭解不同工具的特性,才能正確透過程式把資料串起來。舉例來說,大家最熟悉的定序分析軟體GATK,前面先要有另一個分析軟體BWA 分析定序原始檔案,後面才接GATK,但是BWA、 GATK 中間還要有一些軟體來做調整。例如在NGS實驗過程中,有時會透過PCR的方式放大定序library,如果PCR Product 裡面有變異(variant),就會被變相地放大,這時就不是由GATK 處理,應該要交給其他工具進行 Mark Duplicate的處理,並串接在 BWA與 GATK之間。

錯誤檢查、平行加速、呈現與註解

將工具串接完成之後,於開始進行分析時,也需要先檢查輸入系統之定序通用原始檔案 (FASTQ) 內容是否有錯誤,以確保分析會順利進行。因為每個分析步驟牽涉許多軟體與資料,執行過程每個步驟都需要仔細檢查,不然就很容易出錯,這都是處理大量NGS資料會遇到的資訊問題。除此之外,操作介面與管理功能要做完整的規劃,除了基本分析功能外,還有帳戶管理、設定權限等。改善系統效能則必須要平行化,但平行化並不容易,在整個過程中,要查出傳輸過程中的瓶頸,再針對問題去解決,因為有些程式的特性無法平行化,這也需要事先瞭解。然而,平行化也不代表速度就會變很快,還要優化(optimization)。系統優化要掌握記憶體 (memory) 用量、檔案系統 (file system) 特性、輸出/輸入系統 (I/O) 的能力、CPU 利用率,這些因素都互有關聯。最後分析結果還需要整理到可搭配適當工具做後續分析瀏覽,例如搭配IGV (Integrative Genomics Viewer) 來瀏覽分析結果。整理到一定程度後,還要請資料庫人員,將變異點與基因註解加入到資料庫,讓使用者可以做更進一步的篩選。

多樣本、多種分析流程與彈性架構

目前已提供的分析流程包括人類全基因組 (Whole genome) 與外顯子組 (Whole exome) 序列之變異點偵測 (Variant Detection) 、基因表現量差異 (Differential Expression) 分析、基因融合 (Gene Fusion) 偵測、拷貝數變異 (Copy Number Variation ) 、染色質免疫沉澱 (ChIP-seq) 分析及微核醣核酸 (microRNA) 的分析,而甲基化 (methylation) 的分析服務正在研發中。另外第三代定序3rd Generation Sequencing 的Pacific Biosciences 公司的序列拼接 (de novo Assembly) 軟體也有測試。當新的分析有足夠經驗和掌握度的時候,就會放進系統。分析後的結果通常需要加上註解,方便進一步的研究篩選,團隊引用多個公開免費的資料庫,其中包含三個和醫學相關的資料庫。至於商業版的資料庫價格昂貴,以學術單位來講無法負擔,目前尚未納入。當相關技術與資料庫齊備後,如何開發出合適的使用者介面也是一門藝術,當然最重要的還是整合各家所長,顧及到整體,盡可能將所有使用者會用到的需求結合在一起。團隊基於系統具彈性的架構,整合不同規模的使用者需求,亦規劃推出雲端、桌上型、叢集等多種架構的系統。由於這套資訊分析與管理系統主要是中研院自主研發,直接搭配市面上常見的硬體規格進行整合,因此價格相對便宜性價比相對較高。目前HiPipe分為基本版 (HiPipe Basic) 與進階版 (HiPipe Professional) ,基本版僅能做單一樣本的分析但無管理功能,在網路上可免費使用;進階版支援多樣本同時分析並可進行資料管理, 僅需繳交運算與儲存工本費。

以服務為優先的工作團隊

中研院生醫所生物資訊服務團隊提供服務的原則為「應用重於發表」(Application is more important than publication),定位則是服務重於研究,服務帶動研究,才能更快幫助到需要幫助的人。在經費和人力有限的情況下,以配合市場需求來進行開發,支援全國各方面的定序分析,目前正在規劃與外界合作技轉或成立衍生公司,希望結合台灣的資訊、生物領域學術單位或公司,提供高效能、操作簡易、 價格合理之web介面的生物資訊分析服務給國內研究者及生物科技產業,加強此方面的能力,幫助產業一起打拼,促進發展。

目前團隊約有10 個人,各司其職,各有專精,相關技術都要能夠深入掌握與相互合作。這是個浩大的工程,所有技術都要有整合性,彼此之間要銜接得恰當,因為每件事都息息相關。面對這麼複雜和龐大的工作內容,成員間的合作默契與對工作的熱忱是團隊最重視的,透過專注和安定的心,將團隊力量作最大的發揮!

對Hipipe有興趣的讀者,歡迎造訪:http://hipipe.ncgm.sinica.edu.tw/

Share.
error: 注意: 右鍵複製內容已停用!