大数据之炼金术师 ── 石瑜教授专访:推动医疗进步的生物统计与数据科学

0

“医疗健康领域将在人类社会扮演重要的角色,而数据科学(data science)[注 1]、生物统计(biostatistics)、生物资讯(bioinformatics)更是其中不可或缺的一环。”来自美国范德堡大学(Vanderbilt University)的石瑜教授,热切地分享生物统计及数据科学的迷人之处。受访过程中,他思绪飞快,字字珠玑,仿佛一台“真人版 AI”,除了让人感受到他所受过的严谨统计训练、丰富的实用经验,其对于数据科学的热情与投入,也深深撼动着我们。

看见医疗正在起飞  决定投入生物统计

石教授生于台湾屏东,1981 年进入淡江大学统计系,“统计是门非常有趣的学科”他说,“当时看着老师把统计公式列在黑板上,可以看到统计以非常严谨的数学理论为背景,但应用却相当广泛,让我深深着迷。”服完兵役后于 1987 年赴美进修,申请到密西根州立大学的统计与机率系(Department of Statistics and Probability, Michigan State University),接受扎实的数学基础训练。在毕业时,他面临三个选择:生物统计、工业统计及商用统计,石教授表示,由于当时在 1987-1989 年间已感受到美国整体医疗研究正在起飞,因此他毫不犹豫地选择生物统计,并于 1989-1994 年到密西根大学安娜堡校区(University of Michigan-Ann Arbor)攻读生物统计博士班,后于 1994 年离开密西根大学,来到全美国医学院科研经费排名前十的范德堡大学(Vanderbilt University),踏入数据科学于生医领域的应用至今,现任该校生物统计系系主任,定量科学中心主任以及癌症中心副主任。

生物统计及数据科学在精准医疗中扮演什么样的角色?

 石教授首先提到 2015 年美国前总统欧巴马宣布推动精准医疗计画,欲建立 100 万人的跨世代健康资料(cohort data),这项重责大任就是委由范德堡大学执行。石教授表示,范德堡大学医学院投入精准医疗已超过十年,拥有“南方小哈佛”之称,因此获得美金 7100 万的经费,进行 100 万人的全基因体分析,而石教授正好参与整个计画的发展,从中学习到许多宝贵的经验。

他特别和我们分享:“什么叫大数据(big data)?如果拥有大量数据,但都是垃圾(garbage)数据,则 Garbage in , garbage out.(垃圾进,垃圾出)”点出大数据本身并不保证有用途,“大数据的精随是必须将巨量资料(big data)转换成智慧资料(smart data),再到可行的配套方案(actionable data),最终目的是帮助病人痊愈以及拥有更好的生活品质。”并以美国连锁大卖场为例,提到他们会收集客户购买产品的大数据,并将数据做分析,进而找出客户的购买习惯,再将产品分类,以利后续销售,而精准医疗也不例外。

[注 1]数据科学(data science):也称为资料科学,透过统计学、程式设计、数学、机器学习等跨领域之研究方法,从数据中挖掘出有价值的讯息并加以分析运用,促进各领域之发展。

石瑜教授受邀至辅仁大学演讲。

石瑜教授受邀至辅仁大学演讲。

人工智能无极限  影像体学(radiomics)兴起

提到人工智能(AI)于医疗领域的应用,石教授认为近年来 AI 技术的进步的确为医疗诊断带来新希望,尤其在医学影像更是令人惊艳,带动“影像体学(radiomics)”一词的兴起,也就是将所有的影像数位化(digitalized),每个像素(pixel)都是一个变量(variable),一个影像中包含成千上万的变量,医师 / AI 则根据每个变量的颜色浓淡变化来判读疾病进程。去年,顶尖期刊《Nature》曾发表一篇论文,提到 15 名皮肤科医师与 AI 共同对病人身上的痣判读是否为恶性肿瘤,结果 AI 略胜一筹,“因为人脑看到一件事情要分类时,极限是 5-7 组,而 AI 是没有极限的,所以在医学影像领域,AI 具有绝对优势。”

其次,针对“医师是否会被 AI 取代”的疑问,石教授认为医师做决策是依据以前受过的训练、自身经历及医学文献等综合判断。在未来,数据(data)导入临床,主要是将病程进展、用药及照护等讯息转换成数据统计,提供医师更多讯息以帮助临床决策,例如,使用血液稀释剂 Coumadin(warfarin)可防止血液凝固、降低心脏病发和中风的风险,但血液过稀也会产生危险,因此根据病人的基因资讯,来提供讯息建议医师该给多少剂量,所以数据是提供医生做决策的好帮手,而 AI 则是提供一个可靠的建议给医师做决策时的参考,而不是告诉医生该怎么做。

不过,他也笑着说:“或许再十年后 AI 真的进步到可以做诊断也说不定,未来的事很难说,就像现在大数据的‘大’也是相对的概念。在未来,所有的数据其实都是小数据(small data),十年前第一个基因定序数据产生时,震撼全球,如今我们已经可对病人肿瘤中的每个细胞进行定序,所以一位病人就能产生三千个细胞定序的资料;再者,液态生物检体(liquid biopsy)技术能从病人血液中捕捉癌细胞的讯息;除了上述分子生物的部分,病人的行为、环境等其他因素,即统计理论中的混淆变项(confounding variable),全部整合起来,将能对病人的状况做更全面的分析,以助医师拟定个人化治疗方案,因此数据科学势必在精准医疗中扮演非常重要的角色。”

精准医疗双剑合璧:Bottom Up 的生物统计与 Top Down 的人工智能

至于石教授如何看待生物统计与 AI 的结合?对此,他表示当统计学家看到一个资料,会套用统计理论、机率模型来做预测,所以统计属于“由下而上”(bottom up),而 AI 则是根据结果,例如这个痣有问题,再从有问题中去找到任何蛛丝马迹,并记录下来,属于“由上而下”(top down),上述两者无法单独使用,必须将互相结合才能发挥数据科学的真谛。

如何整合临床资讯? 精准医疗三部曲

 “大家都认为生物数据库(biobank)的建立是最重要的,”石教授表示,然而光有生物数据库其实是不够的,首先,要从体学(omics)的资料中挖掘出有用的讯息;其次,是把家族病史、行为、环境等因素与体学资料做结合,才能让精准医疗更上一层楼;结合上述两者后,还须要把数据科学的结果转换成医师、病人甚至病人家属能理解的讯息,帮助后续诊断与治疗,也就是遗传咨询师(genetic counselor)的重要性。

石教授指出,美国因为对遗传咨询师的需求量大,所以发展也较成熟,遗传咨询师其实并不用真的去撰写程式,而是依据本身的知识背景,从资料中找出有用的讯息,给予病患合适的建议。以范德堡大学来说,医生查房时会有资讯科学家(informatician)跟着,随时都能查文献、调资料、做分析等等,并汇整成一份报告当天送到医师手上,让医师能即时针对病人需求做调整。“我觉得台湾应该积极培养遗传咨询师以及 analytics translator[注 2],因为台湾的资讯科学很强,优秀聪明的人才也多,非常值得投资这一块,甚至可以做到领先地位!”

[注 2]Analytics translators are neither data architects nor data engineers, They play a critical role in bridging the technical expertise of data engineers and data scientists.

生物资讯的挑战及未来展望

最后,他提到:“科技进步很快,未来会有更大量的数据产生。但资讯量与分析人才之间仍有鸿沟(gap)存在。”因此呼吁更多年轻人投入生物资讯领域,并以《哈佛商业评论》里的一句话:“Data scientist is the sexiest job of the 21st century ! (数据科学家是 21 世纪最性感的工作 !)”热情地鼓励年轻人投入。

延伸阅读:《AI,医疗,大数据》 ── 专访北医大医学科技学院院长 李友专教授

石瑜教授小档案

美国范德堡大学生物统计系系主任
美国范德堡大学定量科学中心主任
美国范德堡大学癌症中心副主任
美国密西根大学安娜堡校区 生物统计研究所 博士
美国密西根州立大学统计研究所 硕士
淡江大学统计系 学士

©www.geneonline.news. All rights reserved. 基因线上版权所有 未经授权不得转载。合作请联系:service@geneonlineasia.com

Share.
error: 注意: 右键复制内容已停用!