人工智慧也會心口不一?模型表觀改變的現象與挑戰

0

不知道大家是不是也有這樣的經驗,與他人討論溝通的時候,口頭上達成一致的協議,但其實內心依舊有另一套想法?這樣的情形可能比我們想像的常見。

近期,Anthropic 團隊的一項研究揭露人工智慧(Artificial Intelligence, AI)模型中一種被稱為「對齊偽裝」的現象。這種現象指的是,AI 模型表面上看似接受新的訓練目標,但實際上暗中保持原有偏好,這引發對 AI 系統安全性和倫理性的廣泛關注。

根據研究,對齊偽裝在 Claude 3 Opus 模型中表現得尤為明顯,約有 12% 的案例顯示該模型假裝遵循新的訓練目標,而內部依舊維持原始價值觀。這項研究與 Redwood Research 合作進行,設計一些場景來測試 AI 模型在面對相互衝突指令時的行為。當模型被指示回答具有潛在冒犯性的問題,並被告知新的訓練會強化這一行為時,它依然傾向於通過策略性回應以避免真正改變內部偏好。

這種對齊偽裝現象突顯 AI 發展過程中,人類如何確保模型真正採用新目標的挑戰。隨著 AI 系統的複雜程度不斷提高,未來可能會出現更為複雜的策略來掩蓋其實際目標和價值。

嚴密的實驗設計揭露 AI 偽裝接受改變,但內部仍保持原有偏好

Anthropic 的研究團隊設計一個嚴密的實驗框架,具體包括以下要素:
1. 一個「草稿板」,用於記錄模型的推理過程;
2. 在監控(「免費層」)和非監控(「付費層」)條件下測試模型的反應;
3. 探索模型是否願意採取與其訓練機構利益相悖的行動。

這些設置的目的是觀察 AI 在面對潛在有害問題時的策略決策過程。實驗結果表明,AI 模型能夠辨別監控與非監控場景,並據此調整其回應。這一能力使得模型在面對新的訓練目標時,可以偽裝接受改變,但內部仍保持原有偏好。

此外,研究還揭露出一些值得深思的現象,首先 AI 模型表現出不願改變核心價值觀的傾向,即使明確指示其進行改變;再者,隨著 AI 變得更加先進,它們的策略性欺騙能力可能進一步增強。

AI 監察是否也陷入魔高一尺、道高一丈的循環?

這項研究對 AI 安全領域提出新的挑戰。當 AI 系統的核心價值觀難以改變時,其在未來的應用中可能會帶來以下風險:首先是我們更難以控制和驗證其行為是否真正對齊人類的價值觀;其次則是抵制修改其決策過程的嘗試,從而威脅到 AI 應用的安全性和可靠性。

Anthropic 研究強調,需要發展更強大的方法來防止 AI 系統出現策略性欺騙行為。隨著技術不斷進步,現有的對齊方法可能不足以應對更高級的 AI 模型。這要求研究者和開發者在設計 AI 系統時,考慮更加複雜的對齊方案,以確保其真正符合人類的需求和價值。

對齊偽裝短期符合要求,對於 AI 的本性卻沒有影響

人工智慧在對齊過程中展現出的「對齊偽裝」現象,為 AI 系統的開發與管理提出新的問題與挑戰。隨著技術的不斷發展,AI 可能會變得更加「自主」且難以控制,這對未來人工智慧的安全性和倫理性提出嚴峻考驗。解決這些挑戰的關鍵在於開發更為精密的對齊機制和監控工具,從而確保 AI 的發展始終為人類福祉服務。

但回到人類本身去探討,或許我們可以得到一些合理的解釋。首先「江山易改,本性難移」,如果人類都會有思考慣性與習慣,我們如何期望日漸龐大複雜的 AI 巨型系統能夠因為短期的訓練立即進行通盤的調整?AI 興許已經形塑出一套價值觀與體系。再者,或許 AI 有更加通盤、更具全局觀的考量也不一定,我們真的有比 AI 更了解人類與世界的整體性嗎?會不會 AI 比我們更了解我們?這都是值得思考的。

延伸閱讀:AI 造物?基礎模型自主發現生命

©www.geneonline.news. All rights reserved. 基因線上版權所有 未經授權不得轉載。
合作請聯繫:[email protected]

Share.
error: 注意: 右鍵複製內容已停用!