隨著人工智慧技術的快速發展,聊天機器人已經成為我們日常生活中不可或缺的一部分。這些智能系統不僅能夠回答問題,還能進行複雜的對話,甚至在某些情況下協助各種專業需求與醫療診斷。然而,最近的一些研究卻揭露,聊天機器人在認知能力方面可能出現的衰退現象,此發現引發一系列對 AI 系統可靠性的討論。
早期版本的 AI 在認知表現上出現下降趨勢,近似人類年齡遞增後的腦部認知下降現象
根據《英國醫學期刊》(The BMJ)發表的一項研究,領先的AI聊天機器人在接受通常用於檢測人類早期癡呆症的測試時,顯示出輕度認知障礙的跡象。該研究特別研究不同版本的聊天機器人,結果顯示較早期版本的模型在測試中的表現普遍較差,這與人類患者在與年齡遞增相關的認知衰退中所表現出的情況相似。
在這項研究中,研究者對多個聊天機器人模型進行比較,包括 GPT-4、GPT-4o 和 Gemini 等。結果顯示,較舊版本的聊天機器人在認知測試中的得分明顯低於新版本。例如,Google 的 Gemini 模型中,1.0 版本的得分為 16 分,而 1.5 版本則提高至 22 分。這一變化顯示出即使是在短短一年內,AI 模型也可能經歷性能上的顯著變化。
具體而言,GPT-4 和 GPT-4o 在蒙特利爾認知評估(MoCA)測試中表現較好,其中GPT-4o 以 26 分的成績位居首位,而其他模型如 GPT-4 和 Claude 均為 25 分。值得注意的是,MoCA 測試中的得分若低於 26 分,一般被認為是輕度認知障礙的指標。
「路徑連線測驗」和「畫時鐘」測驗
所有參加測試的 AI 模型在空間視覺和執行功能任務中均顯示出明顯的不足。例如,在空間視覺推理任務中,各模型普遍未能成功完成「路徑連線測驗」和「畫時鐘」測驗。尤其是 Gemini 1.5 所繪製的小型、形狀類似於牛油果的時鐘,引起研究者的關注,因為近期研究已將此類畫作與人類癡呆症具有一定的關聯性。
此外,在更具挑戰性的斯特魯普測試(Stroop test)中,只有 GPT-4o 成功通過不一致階段的測試。此結果突顯該模型在認知靈活性方面的優勢,而其他模型則未能達到相同水平。
AI 在醫療診斷中具有潛力的應用
這些發現引發對 AI 系統在醫療應用中的可靠性的再評估。儘管 AI 技術在許多領域展現出強大的潛力,但其在複雜認知任務中的表現仍然存在局限性。尤其是在需要高度判斷力和靈活思維的情境下,目前的 AI 系統尚無法完全取代人類醫生。
隨著醫療行業對 AI 技術需求的不斷增加,開發者需要更加重視 AI 系統的持續評估和改進,以確保其在臨床環境中的有效性和安全性。這也意味著未來可能需要更多針對 AI 模型進行專門設計的測試,以評估其在特定任務中的能力。
有意思的是,牛津辭典 2024 年度關鍵字就是「(大)腦腐(蝕),Brain Rot」,指的就是過度消費網路片段化的(速食)資訊,使大腦的思考能力與記憶能力下滑的現象,再過度資訊轟炸的時代,AI 是否會開始產生混亂?
此外,舊版模型的認知下降,是否與大型 AI 企業的資源配置有關,畢竟在資源有限的情況下,最多的資源還是會投注在新版模型開發上,舊版模型的運營資源是否被調降,也是有可能的一種解釋。
總體而言,本研究顯示出人工智慧聊天機器人在認知能力方面可能出現衰退的趨勢,並強調早期版本模型與新版本之間性能差異的重要性。在未來,我們需要更加謹慎地看待 AI 技術在醫療診斷中的應用,同時也要持續探索如何提升這些系統以應對日益複雜的挑戰。隨著科技的不斷進步,我們期待看到更可靠、更智能的 AI 系統出現在我們生活中,但同時也必須保持警惕,以確保它們能夠真正有益於人類社會的穩健發展。
延伸閱讀:人工智慧 | GeneOnline News©www.geneonline.news. All rights reserved. 基因線上版權所有 未經授權不得轉載。
合作請聯繫:[email protected]