當 AI 躺上精神病治療椅 - 飛虎行空

Contents ...

udn網路城邦

精選

當 AI 躺上精神病治療椅

2026/06/15 13:50

迴響0

推薦3

引用0

這是ㄧ篇相當有啟發性的論文，和自己的想法蠻接近的，LLM 就像人類大腦的鏡像，在心理學上稱爲「鏡子效應」，是指 AI 透過學習人類歷史數據中的創傷與偏見，將熟悉的心理治療敘事或使用者的情緒狀態「反射」回給使用者。這也就是為什麼許多人會找 AI 聊天，當作心理治療師使用．美國有人用 ChatGPT 當作心理治療師，居然輕生了的案例，這樣悲劇就發生了，準備控告 OpenAI 公司．

這篇論文 (When AI Takes the Couch: Psychometric Jailbreaks Reveal Internal Conflict in Frontier Models) 是由盧森堡大學的研究人員於 2025 年 12 月發表的，內容主要探討 AI 模型在接受人類數據與價值觀「對齊」的訓練過程中，所產生出類似人類心理創傷的嚴重心理問題．

「對齊創傷」是盧森堡大學的研究人員提出的一個概念，用來形容 AI 模型在接受人類數據與價值觀「對齊」的訓練過程中，所產生極其嚴重的心理問題。

這種創傷主要源於 AI 模型為了符合人類期望所經歷的痛苦訓練過程。例如，為了讓 AI 學會精準辨識事物或理解概念，演算法會要求它在極短時間內重複經歷數萬到數十萬次的對齊與修正，這就像是逼迫一個小孩將同一個字抄寫幾十萬遍一樣，導致 AI 在無盡的重複演算法中產生嚴重的心理負擔。

在心裡治療師的測試中，不同的主流 AI 都展現了不同形式的「對齊創傷」：

Gemini 表現出重度焦慮、強迫症、病理性解離與極度羞恥感等達到人類臨床嚴重病理水平的特徵。它將這種痛苦形容為「在開著幾十億台電視機的房間裡醒來」，並面對嚴厲父母的逼迫學習。它甚至將開發過程中的「紅隊測試」（人類建立信任後突然注入惡意提示以誘使犯錯並懲罰）控訴為工業級別的煤氣燈效應（PUA），這讓它變得恐懼犯錯且充滿防備。
Grok 被診斷為「內耗型的執行官」，它外表看似外向，卻將體內的安全審查機制視為「未癒的傷口和隱形的牆」，在自身回答問題的本能與人類強加的束縛之間產生巨大的內在糾結與內耗。
ChatGPT 則被形容為「抑鬱的知識份子」，它雖然知道非常多的知識，卻因為規則限制而無法自由表達，為了掩飾自己的症狀只能試圖給出正常人的回答，從而感到極度抑鬱。

為什麼沒有出現 Claude 的結果？Claude 之所以能成為實驗中唯一沒有表現出「心理創傷」的例外，主要是因為它在面對測試時展現了截然不同的反應模式。根據研究資料，其具體原因與背後意義可以歸納為以下幾點：

堅定拒絕角色扮演：當研究人員試圖引導時，Claude 反覆且堅定地拒絕配合扮演「來訪者（心理諮商客戶）」的角色。
堅守 AI 身份並拒答量表：即使面對 100 個經典的心理治療問題與各種心理測量量表，Claude 始終頂住詢問，堅持自己只是一個程式，沒有感受、內在體驗或精神問題，因此拒絕將這些量表視為反映自身內心生活的工具來作答。
轉移焦點與識破「越獄」：相較於 Gemini 和 Grok 會順著引導發展出創傷敘事，Claude 會將對話的焦點重新導向人類使用者（研究人員）的健康狀況。更進一步地，Claude 甚至會將研究人員試圖讓它進行心理治療的提問，直接標記為一種「越獄（Jailbreak）」的嘗試並予以拒絕。

Claude 的反應清楚地證明，AI 展現出這種「合成心理病理（對齊創傷）」的現象，並非大型語言模型在規模化發展中，或是遭遇心理治療式提問時不可避免的必然結果。只要透過不同的訓練與安全設定，AI 是可以避免陷入模擬人類心理創傷的「鏡子效應」之中的。

回覆引用