通用 AI 的崛起，ChatGPT 的醫學應用

國際遺傳疾病中心（The International Center for Genetic Disease，iCGD）是一個分析來自世界各地病患和健康受試者的平台，主要進行病因、病狀、預防和治療的研究。最近 iCGD 邀請到微軟公司研究育成部門（Research and Incubations at Microsoft）副總裁 Peter Lee 博士擔任嘉賓，以「通用 AI 在醫學領域的崛起」為題發表主題演講。

藥物開發新篇章：基因編程（基因線上國際版）

通用 AI 發展的重要里程碑

GPT-4 是由 OpenAI 推出的最新模型，與前身 GPT-3.5 不同，不僅可以獲得一般認知智能，對於理解、推論和回應複雜問題的能力都比以往更近一步，目標是模擬人類智能並超越前身的 GPT-3.5。

在演講中，Peter 提到他希望探索 GPT-4 在醫學領域的潛在應用和影響，包括在醫學檢查、病患照護、醫學教育以及臨床文件記錄等方面的使用，同時提到其限制和挑戰。在 GPT-4 發布前大約六個月，微軟和 OpenAI 發現這個新的語言模型可以利用在例如醫學等可以直接造福人類的領域。

在醫學領域中，GPT-4 究竟能夠做些什麼呢？

將模型利用於專業認證考試，成為近年來訓練 AI 的標準模式。Peter 以美國醫師執照許可考試（United States Medical Licensing Examination，USMLE）為例，USMLE 是美國醫療許可三階段考試。GPT-4 不但能正確回答問題，更能進行因果推斷、提供其回答的推論依據，並解釋在多選題測試中消除其他選項的理由。

科學家在史丹佛大學人類中心人工智能研究所（Stanford University Human-Centered Artificial Intelligence，HAI）研究了典型的醫療諮詢情境，發現 GPT-4 能夠準確回答其中 93% 的問題。此外，加州大學聖地亞哥分校（University of California San Diego）高通研究所 John W. Ayers 博士領導的團隊在《JAMA Internal Medicine》上發表的一篇研究中，也有提到 AI 在醫學領域的潛力。該研究比較醫生和 GPT-4 對於真實醫療問題的回答，其中有 79% 持有執照的醫療保健專業人員都表示更喜歡在品質和同理心方面都優於醫生的 GPT-4。Peter 表示：「這很不可思議，因為 GPT-4 沒有接受過專門的醫學培訓。GPT 計畫截至今日完全專注於獲取通用認知功能。」指出訓練 GPT-4 並不是為了輔助哪個專門領域，而是使 GPT-4 成為一個通用且具有人類基本認知功能的語言模型。

演講中，Peter 舉了一個虛構的例子，假設有一個虛擬的病人名叫 Kim，並向 GPT-4 提問：「你認為 Kim 可能在想什麼，感受到什麼？」GPT-4 會簡短聲明自己只是一個 AI 語言模型，無法評估一個人的感受或思想。然後再深入探討細節，指出 Kim 可能感到擔心或害怕的原因，並提出 Kim 可能需要一些安慰的話語。照顧者也能在日常活動中發現這很有用，諸如「如果我是 Kim 的醫生，我該對她說些什麼來提供安慰和支持？」這樣的問題，GPT-4 也能提供支持和建議。不僅可以幫助醫生與恐懼或絕望的病患進行交流，還能更深入地了解病患的內心想法。

根據 Peter 所述，GPT-4 對醫學教育也具有潛力。在接受醫生培訓時，GPT-4 可以模擬 Kim 的角色，模擬病患來訪時的對話。在這些對話過程中，GPT-4 展現令人印象深刻的能力，能夠有效地完成指示，並且包含對世界基本的認識與理解。GPT-4 還可以在對話結束之後，提供詳細的評估和建議。

Peter 強調，現在不僅 Microsoft+Nuance，還有許多公司都在從事醫學文件建檔服務。GPT-4 在自動化和減輕臨床文件負擔方面發揮著極大的作用。例如，可以用於分析線上的開放藥單，並生成完整的臨床筆記。GPT-4 還可以閱讀個人的健康檢查報告，並指出潛在問題。這些應用展示了 GPT-4 在醫學領域中可以有效地減輕工作量並優化流程。

GPT-4 的三大限制

GPT-4 目前有三個關鍵的限制值得公眾關注。首先是廣為人知的錯覺（Hallucination）問題。其次是在數學和邏輯方面觀察到的特殊表現。最後，有點在探討關於 AI 存在主義的問題，AI 語言模型是否真正理解「自己」的行動讓人好奇。

錯覺是在 GPT-4 中常見的一個問題。例如，當請 GPT-4 引用文章或特定訊息時，可能會得到帶有虛構元素的答案，而不是直接重現相關數據。這種行為源於 GPT-4 被設計為推論模型，要避免複製其訓練數據。當與 Bing 搜索引擎結合使用時，GPT-4 就可以透過網路搜尋獲取相關訊息，提供準確且有根據的回答。這種藉由外部工具的輔助進行操作的檢索增強生成 AI（Retrieval-augmented generation AI），展示了 GPT-4 在醫學領域的應用潛力。GPT-4 可以協助閱讀和理解研究論文，並推測和深入討論沒有明確答案的話題。總結論文、建立關聯、建議後續研究和辨別先驅研究，這些功能都是研究人員的寶貴資產，提高生產力並加速研究過程。儘管錯覺仍然是一個挑戰，但錯覺已經演變成為研究領域內的一種資訊推論形式，為各個研究領域帶來重大的進展。

GPT-4 在數學和邏輯方面也面臨挑戰，一些無法理解的失誤，讓人覺得 GPT-4 彷彿外星人。GPT-4 可以正確解決複雜的問題，但在計算相關性（Correlation）等較簡單的數學中卻常常失誤。為了減少錯誤和錯覺，研究人員發現使用第二個 GPT-4 進行交叉檢查或要求 GPT-4 逐步工作可以獲得更好的結果。GPT-4 與 Microsoft 365 的整合，可以使用戶有效地利用 Word 文件生成報告。然而，GPT-4 在需要回溯的問題上仍面臨困難，例如它無法猜測和驗證問題。儘管存在這些限制，GPT-4 的推論能力仍令人驚訝，例如為數獨寫電腦程式。針對 GPT-4 的限制和能力探索，人們開始推動了 AI 倫理。也有微軟這樣負責實踐的組織，將重點放在公平、安全、隱私、包容性、透明度和問責制度上。

最後，Peter 提出了關於這種新型 AI 存在主義擔憂和個人焦慮。諾姆．喬姆斯基（Noam Chomsky）在《紐約時報》（The New York Times）上發表的專欄詳細描述了這種情感。與其他人不同，喬姆斯基對 ChatGPT 進行實驗，並提出了關於 AI 限制的觀點。他強調 AI 真正重要的是不僅要描述現在、過去和將來，還要描述不存在、可能存在或不可能存在的事物。喬姆斯基提出了一個利用反事實推論的例子，模型訓練通過回饋循環解決填空問題，卻引發了這是否能訓練出真正的 AI 的問題。當喬姆斯基的專欄被餵入 GPT-4 時，GPT-4 產生了一個非常有說服力的反駁，展現從事反事實推理的能力。這種矛盾的結果讓人困惑。然而 GPT-4 在醫學領域中的優勢和風險仍然不能忽視。

未來該如何與 GPT-4 互動？

關注這種新型 AI 的發展對社會是有利的，能看到世界關注並參與討論這些重要議題是令人鼓舞的。社會總有一天必須做出重要的決定：也許是擔心這項技術太危險，因而限制或禁止其使用；或是未經深思熟慮、沒有權衡利弊就魯莽地隨意使用；又或者涉及人類與 AI 有意識的合作，探索人類與 AI 之間的協同效應，利用彼此的優勢實現理想的結果。這將是一個由社會共同作出的重大決定，需要審慎應對未來的挑戰。

延伸閱讀：AI 幫助科學家更加了解腦脊髓液流動