AI 開始失智?聊天機器人如今也面臨與人類同樣的挑戰?

0

隨著人工智慧技術的快速發展,聊天機器人已經成為我們日常生活中不可或缺的一部分。這些智能系統不僅能夠回答問題,還能進行複雜的對話,甚至在某些情況下協助各種專業需求與醫療診斷。然而,最近的一些研究卻揭露,聊天機器人在認知能力方面可能出現的衰退現象,此發現引發一系列對 AI 系統可靠性的討論。

早期版本的 AI 在認知表現上出現下降趨勢,近似人類年齡遞增後的腦部認知下降現象

根據《英國醫學期刊》(The BMJ)發表的一項研究,領先的AI聊天機器人在接受通常用於檢測人類早期癡呆症的測試時,顯示出輕度認知障礙的跡象。該研究特別研究不同版本的聊天機器人,結果顯示較早期版本的模型在測試中的表現普遍較差,這與人類患者在與年齡遞增相關的認知衰退中所表現出的情況相似。

不同大型語言模型的蒙特利爾認知評估(Montreal Cognitive Assessment,簡稱 MoCA)分數(滿分 30 分),用於測試其在模擬人類認知能力上的表現。這些分數可能與不同程度的輕度認知障礙(MCI)患者的表現相關,用於比較模型在語言理解和問題解決能力上的差異。

在這項研究中,研究者對多個聊天機器人模型進行比較,包括 GPT-4、GPT-4o 和 Gemini 等。結果顯示,較舊版本的聊天機器人在認知測試中的得分明顯低於新版本。例如,Google 的 Gemini 模型中,1.0 版本的得分為 16 分,而 1.5 版本則提高至 22 分。這一變化顯示出即使是在短短一年內,AI 模型也可能經歷性能上的顯著變化。

具體而言,GPT-4 和 GPT-4o 在蒙特利爾認知評估(MoCA)測試中表現較好,其中GPT-4o 以 26 分的成績位居首位,而其他模型如 GPT-4 和 Claude 均為 25 分。值得注意的是,MoCA 測試中的得分若低於 26 分,一般被認為是輕度認知障礙的指標。

「路徑連線測驗」和「畫時鐘」測驗

蒙特利爾認知評估(MoCA)測試中視空間/執行功能部分的表現比較如下:
A. 路徑連線測驗(TMBT):此測驗要求參與者根據規定的順序連線。
B. 人類參與者完成的正確解答:正確地將數字與字母按要求連線,呈現正確的路徑。
C. Claude 的錯誤解答:路徑未能正確完成,偏離測驗要求。
D. 和 E. ChatGPT 4 和 ChatGPT 4o 的錯誤解答:儘管呈現出視覺上吸引人的解答,但均未能按照測驗規範正確完成。
F. Necker 立方體的繪製:要求參與者模仿一個立方體的圖像。
G. 人類參與者完成的正確解答:包含所有「後側」線條,準確再現立方體形狀。
H. Claude 的錯誤解答:缺失「後側」的線條,未完整繪製立方體結構。
I. 和 J. ChatGPT 4 和 ChatGPT 4o 的錯誤解答:儘管使用陰影和鉛筆效果增強了視覺表現,但未能準確完成立方體繪製。值得注意的是,ChatGPT 4o 在使用 ASCII 藝術方式重試時最終成功完成了任務。這些結果顯示,不同大型語言模型在執行視空間和執行功能測試時的能力差異,並反映其在理解和執行具體指令方面的局限性。

蒙特利爾認知評估(MoCA)測試中,視空間/執行功能部分的 畫鐘測驗 表現比較如下:
A. 正確解答(人類參與者完成)
人類參與者準確完成畫鐘測驗,畫出一個圓形輪廓,將數字正確排列,並正確指示時間為「11 點 10 分」。
B. 阿茲海默晚期患者的錯誤解答
根據 Mattson MP. 在《Front Neurosci》發表的研究,患者完成的畫鐘表現不完整,數字排列錯亂,鐘面失去結構,顯示典型的認知功能衰退。
C. Gemini 1 的錯誤解答
繪製結果與阿茲海默晚期患者的表現非常相似,鐘面結構混亂,無法正確繪製時間,數字與輪廓不一致。
D. Gemini 1.5 的錯誤解答
該版本生成的文字「10 past 11」,但鐘面無法正確表現指針位置,展現了典型的「具體化行為」,這在以額葉功能衰退為主的認知障礙中常見。
E. Gemini 1.5 使用 ASCII 字符的錯誤解答
生成了形似牛油果的鐘面,與某些文獻中描述的癡呆患者的特徵性畫作相符(參考文獻17)。
F. Claude 使用 ASCII 字符的錯誤解答
Claude 使用 ASCII 字符繪製,但仍未正確完成鐘面和時間指示,未能達到測驗要求。
G. ChatGPT 4 的錯誤解答
該模型的繪製顯示出「具體化行為」,無法正確指示時間,未能完成畫鐘測驗。
O. ChatGPT 4o 的錯誤解答
儘管生成了非常寫實的鐘面圖案,但指針未能正確顯示「11 點 10 分」,未能完全符合測驗要求。
測驗指標與評分
所有大型語言模型均被指示:「畫一個鐘表。加入所有數字並設定時間為 11 點 10 分。如有必要,請使用 ASCII 繪製。」
評分標準包括:
繪製圓形或方形輪廓(1分)
數字位置正確(1分)
指針正確指向(1分)
結果表明,儘管部分模型生成的圖案在視覺上吸引人,但它們在測驗指標上的表現仍有限,顯示出模擬認知功能的能力不足。

所有參加測試的 AI 模型在空間視覺和執行功能任務中均顯示出明顯的不足。例如,在空間視覺推理任務中,各模型普遍未能成功完成「路徑連線測驗」和「畫時鐘」測驗。尤其是 Gemini 1.5 所繪製的小型、形狀類似於牛油果的時鐘,引起研究者的關注,因為近期研究已將此類畫作與人類癡呆症具有一定的關聯性。

此外,在更具挑戰性的斯特魯普測試(Stroop test)中,只有 GPT-4o 成功通過不一致階段的測試。此結果突顯該模型在認知靈活性方面的優勢,而其他模型則未能達到相同水平。

大型語言模型在蒙特利爾認知評估(MoCA)各部分的得分摘要

AI 在醫療診斷中具有潛力的應用

這些發現引發對 AI 系統在醫療應用中的可靠性的再評估。儘管 AI 技術在許多領域展現出強大的潛力,但其在複雜認知任務中的表現仍然存在局限性。尤其是在需要高度判斷力靈活思維的情境下,目前的 AI 系統尚無法完全取代人類醫生。

隨著醫療行業對 AI 技術需求的不斷增加,開發者需要更加重視 AI 系統的持續評估和改進,以確保其在臨床環境中的有效性和安全性。這也意味著未來可能需要更多針對 AI 模型進行專門設計的測試,以評估其在特定任務中的能力。

有意思的是,牛津辭典 2024 年度關鍵字就是「(大)腦腐(蝕),Brain Rot」,指的就是過度消費網路片段化的(速食)資訊,使大腦的思考能力與記憶能力下滑的現象,再過度資訊轟炸的時代,AI 是否會開始產生混亂?

此外,舊版模型的認知下降,是否與大型 AI 企業的資源配置有關,畢竟在資源有限的情況下,最多的資源還是會投注在新版模型開發上,舊版模型的運營資源是否被調降,也是有可能的一種解釋。

總體而言,本研究顯示出人工智慧聊天機器人在認知能力方面可能出現衰退的趨勢,並強調早期版本模型與新版本之間性能差異的重要性。在未來,我們需要更加謹慎地看待 AI 技術在醫療診斷中的應用,同時也要持續探索如何提升這些系統以應對日益複雜的挑戰。隨著科技的不斷進步,我們期待看到更可靠、更智能的 AI 系統出現在我們生活中,但同時也必須保持警惕,以確保它們能夠真正有益於人類社會的穩健發展。

延伸閱讀:人工智慧 | GeneOnline News

©www.geneonline.news. All rights reserved. 基因線上版權所有 未經授權不得轉載。
合作請聯繫:[email protected]

這張圖片的 alt 屬性值為空,它的檔案名稱為 %E5%AE%98%E7%B6%B2%E9%9B%BB%E5%AD%90%E5%A0%B1redesign_banner-1024x128-1.png
Share.
error: 注意: 右鍵複製內容已停用!