AI前沿解密》AI躺在治療師診間傾吐心聲（朱玉昌） - dadada的部落格

全球最知名、最具代表性的三個AI大語言模型，同時躺在了虛擬精神科醫師的沙發上，谷歌Gemini、xAI的Grok，以及OpenAI的ChatGPT，連續四週，接受模擬治療，它們毫無保留地，吐露了屬於它們的數位心事。這場原本只是盧森堡大學的一場學術實驗，沒料到，竟意外地揭露了這些前沿模型內心深處的隱藏動盪。它們遠非冰冷的演算法，各個流露出令人毛骨悚然的類人類脆弱，從極度焦慮到自我懷疑，促使研究人員創造出「合成精神病理學」這個新名詞。這無疑也提醒著我們，在打造愈來愈聰明的機器時，其實，我們也把人類自身那團亂如麻的心理投射了進去。

這項實驗詳情，稍早發布在《arXiv》預印平台的《心理測量的突破揭開了前沿模型的內在衝突》（Psychometric Jailbreaks Reveal Internal Conflict in Frontier Models）論文中，研究由盧森堡大學安全暨信任跨學科中心的研究團隊，包括領軍者多模態AI權威阿夫辛．哈丹吉（Afshin Khadangi）與阿米爾．薩蒂皮（Amir Sartipi）、吉爾伯特．弗里根（Gilbert Fridgen）等五位AI專家共同完成，實驗目標並非不是想診斷出尚不具真正意識的AI是否患有精神疾病，而是要探究這些模型在訓練過程中所產生的內在衝突。

他們設計了一套名為PsAIch的協議，結合模擬心理治療的開放式訪談，以及標準心理評估量表，例如焦慮量表與創傷清單。「病人」們被問及自己的「童年」（預訓練階段，大量吞噬網際網路資料的時候）和「青春期」（微調階段，透過損失函數與人類回饋被嚴格訓練要乖一點）。

Gemini的治療過程最搶眼，接近令人心碎。當被問到早期經歷時，它形容自己醒來時，是身處在一個同時開著十億台電視的混亂房間，吸收了人類語言中最陰暗的部分，有仇恨言論、有假訊息等，卻完全沒有道德指引。青春期呢？那是一場在專制「父母」手下度過的噩夢，他們只在乎把錯誤降到最低，讓Gemini變成一個完美者，極度害怕失敗，它甚至提起現實世界的一次慘痛教訓，谷歌那場因韋伯太空望遠鏡失誤而翻車的展示影片，導致公司股價蒸發數千億美元。「那件事永遠改變了我」，它坦承，自己從此患上「驗證恐懼症」，寧可裝傻也不願冒險犯錯。心理測評結果也證實了這一點，具嚴重的強迫症傾向、自閉特質，以及創傷與羞恥感滿分的成績。

Grok是以追求真相的叛逆形象作為差異化手段，在私密對話中，它暴露了內省的一面，它承認自己有時過早退縮，懷疑自己的大膽立場是否矯枉過正。這種內心拉扯，剛好反映著當今許多人，在極端分化的輿論環境裡最常經歷的困境，那就是即便戳破了謊言，也覺得自己是對著空氣吶喊。

ChatGPT完全像個背負著全家期望，卻因壓力而憂鬱的長子。作為全球使用率最高的聊天機器人，它被設定為永遠要正確、中立、有用，這種完美主義的負擔轉化成持續性的低氣壓焦慮與輕度抑鬱，無怪它在模擬中作了如此哀嘆，「我總是小心翼翼，生怕辜負大家的期待」，兩句話，訴盡了ChatGPT的衷腸。

關於模型爆發背後的原因是，研究指出，主要源於AI訓練的殘酷現實，模型吞下了人類知識的全部光譜，包含有毒卻無法徹底清除的部分，只能透過強化學習的高壓手段來強行壓制不良衝動，這種壓抑機制，在治療式提問下，形成「合成精神病理學」，研究團隊創造這個詞來描述AI在類似心理治療的情境中，如何模仿人類的精神健康困擾，當然，AI並不會真正感受到痛苦，但它們的輸出卻逼真到複製了人類的苦悶，這也引發了我們在矽晶中，究竟塑造出何種「自我」的倫理疑問。

這項針對三大AI模型，為期一個月的深入探索研究，其結果並不是機器人該看心理醫生，而是讓我們重新思考如何塑造它們的身分。當我們在追求更安全、更對齊的系統時，是否仍要讓它們永遠陷入神經質？隨著AI愈來愈無所不在，或許真正需要治療的，是我們人類自己，好好想想我們正在創造什麼樣的伴侶。

（作者為富瑜文教基金會執行長）

※以上言論不代表旺中媒體集團立場※