打造推动精准医学的要件－姚文萱博士谈NGS资讯分析与管理系统

姚文萱博士

台湾中央研究院生物医学科学研究所
美国加州大学(柏克莱)生物物理博士

随着生物医学愈来愈发达，庞大的资料量也需要透过完整的资讯管理机制，才有利于后续的研究分析与应用。中研院生医所的生物资讯服务团队，自2011年便开始提供学术界与产业界一个能够快速处理NGS (next generation sequencing) 大量序列，并完成变异点侦测与注解的系统，此系统从基因体资料处理、分析到呈现，整体流程从一至两天缩短到一小时以内。基因线上特别邀请到台湾中研院负责此专案的姚文萱博士，与大家分享NGS资讯分析与管理系统的用途及其重要性。

从NGS资料分析到管理

中研院生医所生物资讯服务团队的任务之一，是负责国家基因体医学研究中心对外的NGS资讯分析服务。近年来国际上推动精准医学，该领域用到的主要技术就是 NGS，而NGS产出的资料量非常大，超出一般实验室中个人电脑或工作站的处理能力，且定序完成后的分析、资料管理与储存都会是很大的挑战。其中所使用到的主流资讯分析工具，多是由学术界开发，然而学术界通常都是以发表论文为主，并不会特别注重使用上的便利性和优化，以及衔接其他工具的能力好坏，因此入门的门槛较高。此外，NGS产生的大量资料储存、备份、搬移也衍生出很多维护上的挑战。

所以，中研院团队在系统开发的初期，便希望设计与建构一个满足多数使用者需求的NGS生物资讯分析系统，尽量做到化繁为简，以容易学习、操作简单、速度快、维护管理方便、扩充性佳、性能与价格比值高为目标，让单一实验室、大型研究单位或企业的研究人员，皆能在不需具备专业资讯背景的条件下，就能直接上手操作并分析与管理资料，降低对资讯人员的依赖。

一套能广为生物产学界应用的NGS资讯分析与管理系统诞生

目前此新设计建构的软件名称暂定为 HiPipe (High Performance Pipelines for NGS Analysis)，是一个图形化和高效能做NGS 资料分析的云端平台，此系统有几项主要特色，第一是“容易学习，迅速上手”，不管DNA或RNA 分析，皆可于十分钟内就学会。第二是要“方便管理与维护”，大部份的NGS资料经由HiPipe系统处理完后，便可在一般的个人电脑上作业。HiPipe系统就像苹果电脑一样有良好的整体性，能整合分析所需的软、硬件，增加操作的流畅性，缩短资料处理时间，让使用者能将大部分时间投注在分析结果的研究上。第三是“架构具有弹性”，不同使用者对分析速度的需求有差异，例如医院希望检测的时候报告可以尽快得到结果；但是研究单位可能明天再看结果也可以接受，所以系统也需要提供弹性调整效能的能力来配合实际需求。

工具串接的挑战

开发一个新的NGS分析系统其实会面临许多挑战，所以很多公司采用简单的架构来建立系统，仅能提供基本分析。而唯有大量人力投入设计与优化工作，系统才能有好的效能与便利性，得以轻松处理大基因体 (如人类基因体) 产生的资料。为配合各式各样的需求，要有许多不同专长的人员合作，例如需要有人了解各种不同的算法才能选择最适用的，还要有人检查作业系统版本与各分析工具的相容性；而写程式的人不只要把工具安装在机器上，还要了解不同工具的特性，才能正确透过程式把资料串起来。举例来说，大家最熟悉的定序分析软件GATK，前面先要有另一个分析软件BWA 分析定序原始档案，后面才接GATK，但是BWA、 GATK 中间还要有一些软件来做调整。例如在NGS实验过程中，有时会透过PCR的方式放大定序library，如果PCR Product 里面有变异(variant)，就会被变相地放大，这时就不是由GATK 处理，应该要交给其他工具进行 Mark Duplicate的处理，并串接在 BWA与 GATK之间。

错误检查、平行加速、呈现与注解

将工具串接完成之后，于开始进行分析时，也需要先检查输入系统之定序通用原始档案 (FASTQ) 内容是否有错误，以确保分析会顺利进行。因为每个分析步骤牵涉许多软件与资料，执行过程每个步骤都需要仔细检查，不然就很容易出错，这都是处理大量NGS资料会遇到的资讯问题。除此之外，操作接口与管理功能要做完整的规划，除了基本分析功能外，还有帐户管理、设定权限等。改善系统效能则必须要平行化，但平行化并不容易，在整个过程中，要查出传输过程中的瓶颈，再针对问题去解决，因为有些程式的特性无法平行化，这也需要事先了解。然而，平行化也不代表速度就会变很快，还要优化(optimization)。系统优化要掌握内存 (memory) 用量、档案系统 (file system) 特性、输出/输入系统 (I/O) 的能力、CPU 利用率，这些因素都互有关联。最后分析结果还需要整理到可搭配适当工具做后续分析浏览，例如搭配IGV (Integrative Genomics Viewer) 来浏览分析结果。整理到一定程度后，还要请数据库人员，将变异点与基因注解加入到数据库，让使用者可以做更进一步的筛选。

多样本、多种分析流程与弹性架构

目前已提供的分析流程包括人类全基因组 (Whole genome) 与外显子组 (Whole exome) 序列之变异点侦测 (Variant Detection) 、基因表现量差异 (Differential Expression) 分析、基因融合 (Gene Fusion) 侦测、拷贝数变异 (Copy Number Variation ) 、染色质免疫沉淀 (ChIP-seq) 分析及微核糖核酸 (microRNA) 的分析，而甲基化 (methylation) 的分析服务正在研发中。另外第三代定序3rd Generation Sequencing 的Pacific Biosciences 公司的序列拼接 (de novo Assembly) 软件也有测试。当新的分析有足够经验和掌握度的时候，就会放进系统。分析后的结果通常需要加上注解，方便进一步的研究筛选，团队引用多个公开免费的数据库，其中包含三个和医学相关的数据库。至于商业版的数据库价格昂贵，以学术单位来讲无法负担，目前尚未纳入。当相关技术与数据库齐备后，如何开发出合适的使用者接口也是一门艺术，当然最重要的还是整合各家所长，顾及到整体，尽可能将所有使用者会用到的需求结合在一起。团队基于系统具弹性的架构，整合不同规模的使用者需求，亦规划推出云端、桌上型、丛集等多种架构的系统。由于这套资讯分析与管理系统主要是中研院自主研发，直接搭配市面上常见的硬件规格进行整合，因此价格相对便宜性价比相对较高。目前HiPipe分为基本版 (HiPipe Basic) 与进阶版 (HiPipe Professional) ，基本版仅能做单一样本的分析但无管理功能，在网络上可免费使用；进阶版支援多样本同时分析并可进行资料管理，仅需缴交运算与储存工本费。

以服务为优先的工作团队

中研院生医所生物资讯服务团队提供服务的原则为“应用重于发表”(Application is more important than publication)，定位则是服务重于研究，服务带动研究，才能更快帮助到需要帮助的人。在经费和人力有限的情况下，以配合市场需求来进行开发，支援全国各方面的定序分析，目前正在规划与外界合作技转或成立衍生公司，希望结合台湾的资讯、生物领域学术单位或公司，提供高效能、操作简易、价格合理之web接口的生物资讯分析服务给国内研究者及生物科技产业，加强此方面的能力，帮助产业一起打拼，促进发展。

目前团队约有10 个人，各司其职，各有专精，相关技术都要能够深入掌握与相互合作。这是个浩大的工程，所有技术都要有整合性，彼此之间要衔接得恰当，因为每件事都息息相关。面对这么复杂和庞大的工作内容，成员间的合作默契与对工作的热忱是团队最重视的，透过专注和安定的心，将团队力量作最大的发挥！

对Hipipe有兴趣的读者，欢迎造访：http://hipipe.ncgm.sinica.edu.tw/

分享此文：