偏誤數據影響 AI 診斷、醫學影像判讀準確度如何提升？ AACR 2021 精華

數位化時代來襲，科技與醫療的界線逐漸模糊，癌症療法也因新興技術變得更精準與多樣化。AACR 2021 大會針對 AI、機器學習在癌症治療的應用與挑戰進行討論，指出健康照護系統的結構不平等可能影響臨床照護與診斷演算法的訓練過程。

Novartis 生物醫學中心的 Iya Khalil 博士指出，多元化來源與層級的患者數據可整合於臨床數據，以補足健康體系的斷層，也提供醫護人員符合現實世界的各疾病數據。另外，透過整合分子數據、影片、活體切片結果，科學家可以降低偏誤（bias）數據的出現，也可使人類正確理解疾病的運作機制，找到低偏見的治療方法。

紀念斯隆凱特琳癌症中心的 Christina Leslie 博士則表示，在訓練演算法時，使用小眾且統一的族群數據可能會生成一個不穩定模組，容易漏失重要的數據點。另外，在基礎研究中，AI 的目標是依照輸入的數據精準預測結果，然而在臨床場景中，AI 除了要精準預測外，也得提供得出結論的可信邏輯，使醫師願意相信並使用。

加州大學洛杉磯分校公共衛生學院 Joann Elmore 博士強調，在現實世界中，AI 診斷有偽陽性的應用挑戰。而 Apricity Health 執行長 Lynda Chin 博士則經驗分享如何透過 AI 將現實世界與控制環境的臨床照護差距最小化。

他們也針對科技是否會在代表人數不足或過多的族群中加劇數據落差（digital divide）的問題進行回答。他們認為，要讓各地區健康中心擁有同等臨床照護的機會與技術，科學家需要開發新工具與強化法規監管，更注意用於訓練的數據是否存在偏見。接下來，各講者將分享他們在癌症研究中應用 AI 的相關經驗。

染色質與基因調控的 AI 模型

Leslie 博士表示，表觀遺傳學大數據可用來解密染色質密碼與基因調控的方式。他的實驗室的研究是透過不同生理狀態的 Hi-C、HiChiP 數據集來將 DNA 序列、啟動子（promoters）和增強子（enhancer）活動與可存取數據整合至 AI/機器學習（AI/ML）模組，來預測基因表現。

研究人員透過互動式的 3D 基因體數據打造圖神經網路 GraphReg，用來分析與找出人體調節因子的重要互動。GraphReg 之後被訓練成只需透過一些屬性就能預測到基因體的遠距離互動，大大提升了基因模組的表現與功能性增強子的預測力。

經過細胞株數據的訓練後，GraphReg 能在真實訊號與預知訊號的相關數據中表現優異，比只使用 1D 數據的基線定序模型來的有效。

GraphReg 被設計成 2 種模式：

Epi-GraphReg：使用 1D 數據與組織蛋白修飾（histone modification）生成神經網路，並搭配 HiChiP 圖數據，來預測基因表現和與啟動子、增強子的連結性。主要用於細胞種類未知的情況。
Seq-GrapgReg：將 DNA 定序數據輸入卷積神經網路（Convolutional Neural Networks，CNN）或圖神經網路，用來預測基因表現與表觀遺傳訊號。主要用於細胞種類特定的情況。

Leslie 博士的研究團隊為了理解 AI 如何得出預測，觀察機器學習模型如何辨識數據與預測基因表現。他們發現機器學習、表觀遺傳學、3D 基因體與基因編輯數據都能有效提升基因調節模組的效能。

醫學影像判讀準確度如何提升？

加州大學洛杉磯分校公共衛生學院 Joann Elmore 教授說到，癌症檢測結果常常會因醫師不同出現變化，人為因素容易影響癌症篩檢精準度，而這與後續療法、追蹤、預防與篩檢息息相關。他指出目前也沒有影像判讀的臨床指引或程序能讓放射科醫師參考。這使得同張照片給不同人判讀，就可能出現多種檢測結果，使得該領域成為一門非常有難度的學問。

Elmore 博士提到，她曾經看過一個皮膚活體切片樣本在不同人中得出 3 種診斷結果，且 2015 年的研究中也出現放射科醫師對同一份乳癌切片做出多種截然不同的診斷結果。而 Elmore 博士現在正執行黑色素瘤病理研究，協助量化該腫瘤的皮膚切片診斷精準度與再現性。

她以 3 個專家得出的相同診斷結果為依據，比對超過 250 個放射科醫師對 240 個樣本的診斷結果。試驗中，醫師需把樣本從症狀輕到重分為等級 1 到等級 5，並間隔 6 個月後再判讀一次。結果指出放射科醫師在輕微、良性與侵襲性黑色素瘤的分類上與專家類似，但中間等級樣本的判讀出現歧異。

另外，受試者診斷 2 次後發現，在等級高與等級低的樣本中，觀察者一致性（intra-observer concordance）高，但卻在中間等級表現薄弱。會出現這種情形可能源自於一些變異數，譬如患者年齡、是否取得健康照護和旁人意見等。Elmore 博士指出，未來 AI 訓練應符合社會決定因素與臨床變數，來協助診斷更精準。

她更點出，電腦輔助檢測（computer-assisted detection, CAD）工具是生醫影像分析的雙面刃，可能強化或阻礙診斷結果。所以科學家需要在開發 AI 活體切片工具時謹慎注意訓練資料是否偏頗，例如過往一致認同的診斷內容、醫師與患者因診斷結果的互動、CAD 的機制都可能會讓診斷出現偽陽性，致使患者經濟負擔增加。

AI 創新落地與生態系

Apricity Health 執行長 Lynda Chin 博士分享 AI 應用落地與打造生態體系的必要條件。他指出，單細胞基因體、DNA 定序、穿戴式裝置取得的行為數據、社會決定因素（social determinant）都可作為精準醫學的重要養分。精準醫學最有效的時候就是結合數據驅動、AI 和科技應用時，另外精準醫學也能用來整合臨床數據、證據驗證與即時決策等醫療照護數據。

Chin 博士指出，醫療照護體系中有許多不平等，而這些都可能阻礙 AI 應用的發展，此外也舉出 AI 創新提升患者照護品質的方案。他提到，大數據的複雜度與數量將不斷提升，人類需要思考思考新的方式去縮短臨床試驗與患者照護的應用差距。另外，科技能拓展醫療照護的範圍，使患者在家中也可獲得諮商與診療。但科學家應注意到，多種來源的的患者數據需要讓醫師依照看診情境進行分析，才有辦法對症下藥，達到最好的結果。

Apricity 是 Apricity Health 開發的數位照護平台，使用 AI 技術提供癌症患者為核心的居家照護服務。目前，不少癌症已有核准的免疫療法，但該療法往往擁有高毒性與副作用，容易造成健康體系負擔，也讓患者承擔一定的經濟壓力。Apricity 的平台可讓患者在治療中上傳症狀與相關數據，上傳數據會與病歷整合，協助醫師找出臨床資料，以及理解臨床介入的時機需求，強化治療效果。除此之外，演算法也會在患者出現不良反應時，要求樣本採檢，捕捉療程的即時數據與副作用，以提出臨床決策建議。

Chin 博士指出，次世代癌症免疫療法將結合 AI 即時整合數據與預測分析模型，讓相關人員了解疾病演進與每個患者的不同反應。精準癌症照護將整合患者數據、AI、數位科技來降低臨床試驗與現實世界的結果差距，使健康照護更平等。

延伸閱讀：T 細胞吃什麼來抗癌？免疫檢查點受體角色？—AACR 2021 精華

參考資料：
1. https://geneonline.news/en/embracing-artificial-intelligence-and-machine-learning-in-cancer-research-and-care/