文章僅限註冊會員閱讀
close

大數據之鍊金術師 ── 石瑜教授專訪:推動醫療進步的生物統計與數據科學

0

「醫療健康領域將在人類社會扮演重要的角色,而數據科學(data science)[註 1]、生物統計(biostatistics)、生物資訊(bioinformatics)更是其中不可或缺的一環。」來自美國范德堡大學(Vanderbilt University)的石瑜教授,熱切地分享生物統計及數據科學的迷人之處。受訪過程中,他思緒飛快,字字珠璣,彷彿一台「真人版 AI」,除了讓人感受到他所受過的嚴謹統計訓練、豐富的實用經驗,其對於數據科學的熱情與投入,也深深撼動著我們。

看見醫療正在起飛  決定投入生物統計

石教授生於台灣屏東,1981 年進入淡江大學統計系,「統計是門非常有趣的學科」他說,「當時看著老師把統計公式列在黑板上,可以看到統計以非常嚴謹的數學理論為背景,但應用卻相當廣泛,讓我深深著迷。」服完兵役後於 1987 年赴美進修,申請到密西根州立大學的統計與機率系(Department of Statistics and Probability, Michigan State University),接受紮實的數學基礎訓練。在畢業時,他面臨三個選擇:生物統計、工業統計及商用統計,石教授表示,由於當時在 1987-1989 年間已感受到美國整體醫療研究正在起飛,因此他毫不猶豫地選擇生物統計,並於 1989-1994 年到密西根大學安娜堡校區(University of Michigan-Ann Arbor)攻讀生物統計博士班,後於 1994 年離開密西根大學,來到全美國醫學院科研經費排名前十的范德堡大學(Vanderbilt University),踏入數據科學於生醫領域的應用至今,現任該校生物統計系系主任,定量科學中心主任以及癌症中心副主任。

生物統計及數據科學在精準醫療中扮演什麼樣的角色?

 石教授首先提到 2015 年美國前總統歐巴馬宣布推動精準醫療計畫,欲建立 100 萬人的跨世代健康資料(cohort data),這項重責大任就是委由范德堡大學執行。石教授表示,范德堡大學醫學院投入精準醫療已超過十年,擁有「南方小哈佛」之稱,因此獲得美金 7100 萬的經費,進行 100 萬人的全基因體分析,而石教授正好參與整個計畫的發展,從中學習到許多寶貴的經驗。

他特別和我們分享:「什麼叫大數據(big data)?如果擁有大量數據,但都是垃圾(garbage)數據,則 Garbage in , garbage out.(垃圾進,垃圾出)」點出大數據本身並不保證有用途,「大數據的精隨是必須將巨量資料(big data)轉換成智慧資料(smart data),再到可行的配套方案(actionable data),最終目的是幫助病人痊癒以及擁有更好的生活品質。」並以美國連鎖大賣場為例,提到他們會收集客戶購買產品的大數據,並將數據做分析,進而找出客戶的購買習慣,再將產品分類,以利後續銷售,而精準醫療也不例外。

[註 1]數據科學(data science):也稱為資料科學,透過統計學、程式設計、數學、機器學習等跨領域之研究方法,從數據中挖掘出有價值的訊息並加以分析運用,促進各領域之發展。

石瑜教授受邀至輔仁大學演講。

石瑜教授受邀至輔仁大學演講。

人工智慧無極限  影像體學(radiomics)興起

提到人工智慧(AI)於醫療領域的應用,石教授認為近年來 AI 技術的進步的確為醫療診斷帶來新希望,尤其在醫學影像更是令人驚艷,帶動「影像體學(radiomics)」一詞的興起,也就是將所有的影像數位化(digitalized),每個像素(pixel)都是一個變數(variable),一個影像中包含成千上萬的變數,醫師 / AI 則根據每個變數的顏色濃淡變化來判讀疾病進程。去年,頂尖期刊《Nature》曾發表一篇論文,提到 15 名皮膚科醫師與 AI 共同對病人身上的痣判讀是否為惡性腫瘤,結果 AI 略勝一籌,「因為人腦看到一件事情要分類時,極限是 5-7 組,而 AI 是沒有極限的,所以在醫學影像領域,AI 具有絕對優勢。」

其次,針對「醫師是否會被 AI 取代」的疑問,石教授認為醫師做決策是依據以前受過的訓練、自身經歷及醫學文獻等綜合判斷。在未來,數據(data)導入臨床,主要是將病程進展、用藥及照護等訊息轉換成數據統計,提供醫師更多訊息以幫助臨床決策,例如,使用血液稀釋劑 Coumadin(warfarin)可防止血液凝固、降低心臟病發和中風的風險,但血液過稀也會產生危險,因此根據病人的基因資訊,來提供訊息建議醫師該給多少劑量,所以數據是提供醫生做決策的好幫手,而 AI 則是提供一個可靠的建議給醫師做決策時的參考,而不是告訴醫生該怎麼做。

不過,他也笑著說:「或許再十年後 AI 真的進步到可以做診斷也說不定,未來的事很難說,就像現在大數據的『大』也是相對的概念。在未來,所有的數據其實都是小數據(small data),十年前第一個基因定序數據產生時,震撼全球,如今我們已經可對病人腫瘤中的每個細胞進行定序,所以一位病人就能產生三千個細胞定序的資料;再者,液態生物檢體(liquid biopsy)技術能從病人血液中捕捉癌細胞的訊息;除了上述分子生物的部分,病人的行為、環境等其他因素,即統計理論中的混淆變項(confounding variable),全部整合起來,將能對病人的狀況做更全面的分析,以助醫師擬定個人化治療方案,因此數據科學勢必在精準醫療中扮演非常重要的角色。」

精準醫療雙劍合璧:Bottom Up 的生物統計與 Top Down 的人工智慧

至於石教授如何看待生物統計與 AI 的結合?對此,他表示當統計學家看到一個資料,會套用統計理論、機率模型來做預測,所以統計屬於「由下而上」(bottom up),而 AI 則是根據結果,例如這個痣有問題,再從有問題中去找到任何蛛絲馬跡,並記錄下來,屬於「由上而下」(top down),上述兩者無法單獨使用,必須將互相結合才能發揮數據科學的真諦。

如何整合臨床資訊? 精準醫療三部曲

 「大家都認為生物資料庫(biobank)的建立是最重要的,」石教授表示,然而光有生物資料庫其實是不夠的,首先,要從體學(omics)的資料中挖掘出有用的訊息;其次,是把家族病史、行為、環境等因素與體學資料做結合,才能讓精準醫療更上一層樓;結合上述兩者後,還須要把數據科學的結果轉換成醫師、病人甚至病人家屬能理解的訊息,幫助後續診斷與治療,也就是遺傳諮詢師(genetic counselor)的重要性。

石教授指出,美國因為對遺傳諮詢師的需求量大,所以發展也較成熟,遺傳諮詢師其實並不用真的去撰寫程式,而是依據本身的知識背景,從資料中找出有用的訊息,給予病患合適的建議。以范德堡大學來說,醫生查房時會有資訊科學家(informatician)跟著,隨時都能查文獻、調資料、做分析等等,並匯整成一份報告當天送到醫師手上,讓醫師能即時針對病人需求做調整。「我覺得台灣應該積極培養遺傳諮詢師以及 analytics translator[註 2],因為台灣的資訊科學很強,優秀聰明的人才也多,非常值得投資這一塊,甚至可以做到領先地位!」

[註 2]Analytics translators are neither data architects nor data engineers, They play a critical role in bridging the technical expertise of data engineers and data scientists.

生物資訊的挑戰及未來展望

最後,他提到:「科技進步很快,未來會有更大量的數據產生。但資訊量與分析人才之間仍有鴻溝(gap)存在。」因此呼籲更多年輕人投入生物資訊領域,並以《哈佛商業評論》裡的一句話:「Data scientist is the sexiest job of the 21st century ! (數據科學家是 21 世紀最性感的工作 !)」熱情地鼓勵年輕人投入。

延伸閱讀:《AI,醫療,大數據》 ── 專訪北醫大醫學科技學院院長 李友專教授

石瑜教授小檔案

美國范德堡大學生物統計系系主任
美國范德堡大學定量科學中心主任
美國范德堡大學癌症中心副主任
美國密西根大學安娜堡校區 生物統計研究所 博士
美國密西根州立大學統計研究所 碩士
淡江大學統計系 學士

©www.geneonline.news. All rights reserved. 基因線上版權所有 未經授權不得轉載。合作請聯繫:service@geneonlineasia.com

Share.

Leave A Reply