打造推动精准医学的要件-姚文萱 博士谈NGS资讯分析与管理系统

0

yao2

姚文萱博士

台湾中央研究院生物医学科学研究所
美国加州大学(柏克莱)生物物理博士

随着生物医学愈来愈发达,庞大的资料量也需要透过完整的资讯管理机制,才有利于后续的研究分析与应用。中研院生医所的生物资讯服务团队,自2011年便开始提供学术界与产业界一个能够快速处理NGS (next generation sequencing) 大量序列,并完成变异点侦测与注解的系统,此系统从基因体资料处理、分析到呈现,整体流程从一至两天缩短到一小时以内。基因线上特别邀请到台湾中研院负责此专案的姚文萱博士,与大家分享NGS资讯分析与管理系统的用途及其重要性。

从NGS资料分析到管理

中研院生医所生物资讯服务团队的任务之一,是负责国家基因体医学研究中心对外的NGS资讯分析服务。近年来国际上推动精准医学,该领域用到的主要技术就是 NGS,而NGS产出的资料量非常大,超出一般实验室中个人电脑或工作站的处理能力,且定序完成后的分析、资料管理与储存都会是很大的挑战。其中所使用到的主流资讯分析工具,多是由学术界开发,然而学术界通常都是以发表论文为主,并不会特别注重使用上的便利性和优化,以及衔接其他工具的能力好坏,因此入门的门槛较高。此外,NGS产生的大量资料储存、备份、搬移也衍生出很多维护上的挑战。

所以,中研院团队在系统开发的初期,便希望设计与建构一个满足多数使用者需求的NGS生物资讯分析系统,尽量做到化繁为简,以容易学习、操作简单、速度快、维护管理方便、扩充性佳、性能与价格比值高为目标,让单一实验室、大型研究单位或企业的研究人员,皆能在不需具备专业资讯背景的条件下,就能直接上手操作并分析与管理资料,降低对资讯人员的依赖。

一套能广为生物产学界应用的NGS资讯分析与管理系统诞生

目前此新设计建构的软件名称暂定为 HiPipe (High Performance Pipelines for NGS Analysis),是一个图形化和高效能做NGS 资料分析的云端平台,此系统有几项主要特色,第一是“容易学习,迅速上手”,不管DNA或RNA 分析,皆可于十分钟内就学会。第二是要“方便管理与维护”,大部份的NGS资料经由HiPipe系统处理完后,便可在一般的个人电脑上作业。HiPipe系统就像苹果电脑一样有良好的整体性,能整合分析所需的软、硬件,增加操作的流畅性,缩短资料处理时间,让使用者能将大部分时间投注在分析结果的研究上。第三是“架构具有弹性”,不同使用者对分析速度的需求有差异,例如医院希望检测的时候报告可以尽快得到结果;但是研究单位可能明天再看结果也可以接受,所以系统也需要提供弹性调整效能的能力来配合实际需求。

hipipe

工具串接的挑战

开发一个新的NGS分析系统其实会面临许多挑战,所以很多公司采用简单的架构来建立系统,仅能提供基本分析。而唯有大量人力投入设计与优化工作,系统才能有好的效能与便利性,得以轻松处理大基因体 (如人类基因体) 产生的资料。为配合各式各样的需求,要有许多不同专长的人员合作,例如需要有人了解各种不同的算法才能选择最适用的,还要有人检查作业系统版本与各分析工具的相容性;而写程式的人不只要把工具安装在机器上,还要了解不同工具的特性,才能正确透过程式把资料串起来。举例来说,大家最熟悉的定序分析软件GATK,前面先要有另一个分析软件BWA 分析定序原始档案,后面才接GATK,但是BWA、 GATK 中间还要有一些软件来做调整。例如在NGS实验过程中,有时会透过PCR的方式放大定序library,如果PCR Product 里面有变异(variant),就会被变相地放大,这时就不是由GATK 处理,应该要交给其他工具进行 Mark Duplicate的处理,并串接在 BWA与 GATK之间。

错误检查、平行加速、呈现与注解

将工具串接完成之后,于开始进行分析时,也需要先检查输入系统之定序通用原始档案 (FASTQ) 内容是否有错误,以确保分析会顺利进行。因为每个分析步骤牵涉许多软件与资料,执行过程每个步骤都需要仔细检查,不然就很容易出错,这都是处理大量NGS资料会遇到的资讯问题。除此之外,操作接口与管理功能要做完整的规划,除了基本分析功能外,还有帐户管理、设定权限等。改善系统效能则必须要平行化,但平行化并不容易,在整个过程中,要查出传输过程中的瓶颈,再针对问题去解决,因为有些程式的特性无法平行化,这也需要事先了解。然而,平行化也不代表速度就会变很快,还要优化(optimization)。系统优化要掌握内存 (memory) 用量、档案系统 (file system) 特性、输出/输入系统 (I/O) 的能力、CPU 利用率,这些因素都互有关联。最后分析结果还需要整理到可搭配适当工具做后续分析浏览,例如搭配IGV (Integrative Genomics Viewer) 来浏览分析结果。整理到一定程度后,还要请数据库人员,将变异点与基因注解加入到数据库,让使用者可以做更进一步的筛选。

多样本、多种分析流程与弹性架构

目前已提供的分析流程包括人类全基因组 (Whole genome) 与外显子组 (Whole exome) 序列之变异点侦测 (Variant Detection) 、基因表现量差异 (Differential Expression) 分析、基因融合 (Gene Fusion) 侦测、拷贝数变异 (Copy Number Variation ) 、染色质免疫沉淀 (ChIP-seq) 分析及微核糖核酸 (microRNA) 的分析,而甲基化 (methylation) 的分析服务正在研发中。另外第三代定序3rd Generation Sequencing 的Pacific Biosciences 公司的序列拼接 (de novo Assembly) 软件也有测试。当新的分析有足够经验和掌握度的时候,就会放进系统。分析后的结果通常需要加上注解,方便进一步的研究筛选,团队引用多个公开免费的数据库,其中包含三个和医学相关的数据库。至于商业版的数据库价格昂贵,以学术单位来讲无法负担,目前尚未纳入。当相关技术与数据库齐备后,如何开发出合适的使用者接口也是一门艺术,当然最重要的还是整合各家所长,顾及到整体,尽可能将所有使用者会用到的需求结合在一起。团队基于系统具弹性的架构,整合不同规模的使用者需求,亦规划推出云端、桌上型、丛集等多种架构的系统。由于这套资讯分析与管理系统主要是中研院自主研发,直接搭配市面上常见的硬件规格进行整合,因此价格相对便宜性价比相对较高。目前HiPipe分为基本版 (HiPipe Basic) 与进阶版 (HiPipe Professional) ,基本版仅能做单一样本的分析但无管理功能,在网络上可免费使用;进阶版支援多样本同时分析并可进行资料管理, 仅需缴交运算与储存工本费。

以服务为优先的工作团队

中研院生医所生物资讯服务团队提供服务的原则为“应用重于发表”(Application is more important than publication),定位则是服务重于研究,服务带动研究,才能更快帮助到需要帮助的人。在经费和人力有限的情况下,以配合市场需求来进行开发,支援全国各方面的定序分析,目前正在规划与外界合作技转或成立衍生公司,希望结合台湾的资讯、生物领域学术单位或公司,提供高效能、操作简易、 价格合理之web接口的生物资讯分析服务给国内研究者及生物科技产业,加强此方面的能力,帮助产业一起打拼,促进发展。

目前团队约有10 个人,各司其职,各有专精,相关技术都要能够深入掌握与相互合作。这是个浩大的工程,所有技术都要有整合性,彼此之间要衔接得恰当,因为每件事都息息相关。面对这么复杂和庞大的工作内容,成员间的合作默契与对工作的热忱是团队最重视的,透过专注和安定的心,将团队力量作最大的发挥!

对Hipipe有兴趣的读者,欢迎造访:http://hipipe.ncgm.sinica.edu.tw/

一指订阅
接轨全球生技医疗

周周接收编辑精选文章
为你掌握全球生医趋势