长江后浪推前浪,第三代定序技术亮眼突围

0

(康健基因技术长 吴梦楚博士)

基因定序技术日新月异, 1977 年第一代桑格定序 (Sanger sequencing) 诞生,让科学家得以从基因的角度来探讨演化、疾病与生化调控机制,开启生医领域的新境界,到了 2007年次世代定序 (next generation sequencing, NGS) 技术问世,能大幅降低定序所需的时间、错误率及成本,进而发展出全基因体定序 (WGS)、全外显子定序 (WES) ,成为疾病检测与诊断应用上的一大助力。然而,单基因疾病 (mendelian disease) 若使用全外显子定序,检出率仅 25%,就算改用全基因体定序,也只能将检出率提高至约 40% 50%,因此,定序技术要能在医疗检验上有更多应用,仍有许多努力的空间。

甫于 2017 年成功上市的奈米孔定序技术 (Nanopore Sequencing), 成为定序技术演进上的重要里程碑。奈米孔定序法, 可针对单分子进行定序, 能让定序更快更即时, 突破过往定序技术上的诸多限制,未来应用相当值得期待。然而,基因定序技术如此多元,他们的差异在哪里呢 ? 本文摘录康健基因在 Nanopore Challenge 会议中对于该技术的介绍,让读者更深入了解这项技术的优势、挑战与应用。

后基因体时代,Nanopore 突破短序列片段 (short reads) 的侷限性

随着美国前总统欧巴马提出“精准医疗 (precision medicine)”的概念,2015 年更是基因定序技术蓬勃发展的时期。以应用广泛的次世代定序来说,是借由读取短序列片段 (short reads) 的方式来定序,如今已累积了大量资料,却也突显出其限制,比如:重复区域 (repeat region) 定序表现不佳、序列放大造成的偏误、在辨识结构变异 (structure variation),如基因倒置 (inversion)、重复 (duplication) 或易位 (translocation) 等方面也尚有许多挑战待克服。而奈米孔定序法因定序原理的不同,克服了许多次世代定序原有的限制。该技术的原理是让 DNA RNA 通过穿膜蛋白(transmembrane protein)中的奈米孔洞,借由纪录不同碱基通过奈米孔时造成的电流扰动讯号,回推出碱基,进而定出序列。此方法可以直接读取原序列片段,不需经过序列放大,因此也可避免放大造成的偏误。其实早在 1996 年时,美国加州大学的 David Deamer 教授就已开始研发相关的奈米孔技术,但面临许多挑战与困难,例如讯号要如何读取、两个奈米孔间如何能不互相干扰、 奈米孔的材料选择、如何维持 DNA 通过奈米孔时的速率均衡及如何解读大量的复噪声号等等。随后, 由牛津大学 Hagan Bayley 教授于2005年创立Oxford Nanopore Technologies (以下简称 Nanopore)公司,将奈米孔定序技术推向商业化,克服多种关键技术的挑战,包括利用人工智能 (AI) 来解读传感讯号等,得以大幅提升定序通量,降低错误率,让奈米孔定序获得更多应用。

Nanopore 不需DNA合成,定序时间快,且可定序 RNA

奈米孔定序与其他定序技术最主要的差异在于不需合成 (sequencing by synthesis)。目前大多数的定序技术都是一边进行合成一边解读碱基。但奈米孔定序技术则是借由碱基序列通过奈米孔时,造成的连续电流变化来解读序列,不需经过序列放大的步骤,因此定序速率更快,Nanopore 定序平台定序一个碱基仅需 0.002 ,远快于 illumina 定序平台的 2-20 ;此外,可用于 RNA 定序更是其独门特色。而 Nanopore 一个流通池 (flow cell) 上有 2000 多个奈米孔洞, 4 个孔洞对应到一个积体电路(integrated circuit, IC),总共有 512 IC。但须留

,蛋白质会逐渐阻塞孔洞,当孔洞被阻塞后该流通池就失去作用,可能会导致定序结果差异。根据之前的资料,一个流通池约可使用 48 小时, 依不同样品, 定序出 2-20G 的资料。

延伸阅读:单分子定序专利之争? 美国联邦上诉法院裁定 Nanopore 未侵害PacBio 专利

Nanopore 长序列读取优势 更接近完整基因组图谱

奈米孔定序的另一特色为长序列片段 (long reads) 读取,其可读取的序列片段平均高达6-8 kb,远高于其他短序列片段读取平台的 600 bp。长序列片段读取技术有下列优势 :

1. 更容易找出结构变异:比如有些细菌具有特殊的基因体变异,使用短序列片段定序只能看到碎成很多小片段的结果,但若是用 Nanopore 的长序列片段读取技术,则较容易看到这些特殊的结构变异。

2. 直接判断位置:短序列片段定序技术组成的基因都是 100 bp,研究者不易判断该基因是位在质体 (plasmid) 或染色体 (chromosome) ,若用 Nanopore 定序则可以直接判断位置,对后续的分析是一大利多。

3. 更容易确认拷贝数 (copy number)的数量:许多基因有不同的拷贝数,使用短序列片段定序时常要猜测有几个拷贝数,若使用 Nanopore 技术定序,则可看到较完整基因体(genome),也更容易确认拷贝数量。

4. 其他:Nanopore 定序特色还包括不需经 PCR 步骤就能完成建库 (PCR amplification free),进而避免因引子与模板配对错误或放大不均造成的偏误 (bias),甚至未来有可能完全排除建库的步骤。

不过,该技术也并非完美无缺,其从电流讯号回推碱基的准确率约 85%,仍有改进空间,但若透过 overlap consensus / error correction 等步骤 (例如一条序列读两次),就能把准确率提高到 95-97%。整体来说,短序列片段读取的准确度较高,然长序列片段读取则比较接近完整的基因体,两者各有优缺点,互相配合使用可让定序结果更加完整且准确。

Nanopore 资讯分析工具多元化,随时随地即时分析

除了定序平台外,定序后的生物资讯分析也是重要的一环,选对分析方法才能将定序结果发会最大价值。康健基因是台湾第一个拿到Oxford Nanopore Technologies 原厂官方认证的服务供应商,提供包含第三代定序实验到后端生物资讯分析等上中下游完整服务,帮助将定序平台应用于科学及临床研究。Nanopore 的资料处理包含很多层面, 有多种工具可选择,例如 basecalling AlbacoreScrappieGuppy 等工具; Reads Cleaning 可考虑 PorechopNanoFilt ;Alignment NGMLRGraphMapmarginAlign 可选择;De novo assembly则有 CanuMiniasmMECAT ;Consensus & polosh 则可考虑 PilonRacon Nanopolish,研究者可视情况选择不同的处理工具。若需进行即时分析 (real-time analysis),也有数种工具可选择:比如 MinKNOW + EPI2ME,其优点是有图像接口,并可透过网络上传到 EPI2ME。目前, Nanopore 数据分析本身就是一个研究的热点, 几乎每个月甚至每周都有新的工具发表.

但是, 不论是实时的定序还是分析, Nanopore 定序的资料量都非常庞大, 数据处理和运算对网络和计算硬件的性能要求都相当高, 这往往也是使用者最容易忽略的地方. 建议在设计应用Nanopore 技术的实验及研究时, 不仅要考虑定序设备和试剂成本, 数据处理的硬件设备成本也要仔细评估。

Nanopore 的定序技术突破过往短序列片段读取的限制,且能定序 RNA 片段,搭配人工智能解读讯号技术,能够更快地即时分析资讯,未来将可望带来更多临床应用。加上其新推出定序仪 MiniON,仪器体积轻巧便于携带,实现“随身/随时定序”的概念,可预见 Nanopore在未来的定序领域终将占有重要的一席之地。

文/ECO

©www.geneonline.news. All rights reserved. 基因线上版权所有 未经授权不得转载。合作请联系:[email protected]