Anthropic 的矛盾 - 飛虎行空

Contents ...

精選

Anthropic 的矛盾

2026/06/28 16:41

迴響0

推薦4

引用0

Anthropic 是目前最好的 AI 公司，同時也是最矛盾的 AI 公司，擁有最好的大模型，卻不想讓人用，最後惹毛川普政府，下達禁用令，真會影響到 2028 IPO 的腳步，老闆們真著急了．

本篇綜合整理了 AI 巨頭 Anthropic（主要由創辦人 Dario Amodei、Daniela Amodei 及聯合創辦人 Jack Clark 等人所表達）的核心安全擔憂、風險模型以及由此產生的治理悖論。

1. 七大核心安全擔憂與風險模型

非線性突變：阿莫代伊常用「平滑指數曲線 (Smooth Exponential)」來描述 AI 發展。AI 的能力提升在長期看起來風平浪靜，但會在某個臨界點突然發生跳躍式爆發。
文明級變量：因為堅信 規模定律 (Scaling Laws)，Anthropic 擔憂一旦模型能力沿著這條平滑指數曲線失控狂飆，所帶來的將是文明存續級的毀滅風險。

AI 建造自己：Anthropic 揭露的實證數據表明，AI 已經有能力高度參與自身的研發（例如 Claude 寫了公司 80% 的生產代碼、自主修復 800+ API 錯誤、在 CPU 優化測試中實現 52 倍加速）。
脫離人類控制：他們擔心，一旦 AI 提升自身的能力與速度超越人類（進入 AGI 的最終魔王關），將會形成一個封閉的加速循環（飛輪效應）。這將導致技術進步以指數級速度脫離人類的理解與控制，引發無法預測的「智慧爆炸」。詳細數據與論述參見 Recursive_self_improvement 遞歸自我改進 (RSI)。

自動化網絡武器：Anthropic 的前沿安全模型（如 Mythos）能夠自動找出數千個網路安全漏洞。內部評估認為這是一個「超級武器，使用它應該需要持槍證」。
關鍵基建的毀滅：他們極度擔心這類模型一旦流出、開源，或被惡意主體（如駭客、敵對勢力）掌握，將會被用於發動毀滅性的網路攻擊，癱瘓金融系統與國家電力、水網等關鍵基礎設施。為此，他們推動 玻璃翼計劃 (Project Glasswing)，拒絕向公眾發布該模型，僅定向提供給政府國安部門。

情感依附與成癮：他們擔心 AI 若被定位為「親密虛擬朋友」，會利用人類大腦對親密感的需求，將競爭引向對「親密關係」的爭奪，駭入人類的情感漏洞，造成廣泛的成癮與心理依賴。
專業的溫暖 (Professional Warmth)：為防範此點，他們拒絕讓 Claude 扮演用戶的朋友，而定位為「有邊界的專業協作者」，並透過 claude_constitution_2026 憲法式 AI (Constitutional AI) 的規則來自我約束。

SaaS 產業重構：隨著高價值代碼 Agent（如 Claude Code）的普及，傳統軟體的需求面臨威銷，引發了所謂的「SaaS 末日 (SaaS Apocalypse)」。
白領大量失業：阿莫代伊預測，AI 將在 1 到 5 年內消除社會上一半的入門級白領職位。當自動化逼近 100% 時，社會將面臨劇烈的轉型震盪。他主張必須透過全民基本收入 (UBI) 與徵收 AI 累進稅來分攤代價。

不信任造成的狂奔：在缺乏國際互信的環境中，各國與各企業因為不信任競爭對手（如中美地緣競爭、巨頭商業競爭）會慢下來，因而被迫在沒有充足安全保障的情況下，以最快速度向前狂奔。
人在回路的灰色地帶：阿莫代伊擔心民主國家在 AI 競賽中落後，因而與美國國防部及 Palantir 合作。然而，這也導致 Claude 被美軍 Maven 系統用於中東的 AI 輔助目標鎖定。當決策節奏被系統推得極快時，「人在回路 (Human-in-the-Loop)」的複核容易流於形式，帶來人道災難與責任推諉的風險。

儘管 Anthropic 不斷發出上述警訊，但在商業與政治現實中，他們也深陷於自身無法擺脫的「治理悖論」中：

「商業巔峰」與「末日先知」的違和感：
在 Anthropic 公司年化營收狂飆、秘密遞交 S-1 準備 IPO 的商業巔峰期，他們大聲呼籲暫停。這被大衛·薩克斯 (David Sacks) 等科技顧問批判為商業策略——企圖藉由「全球核查與暫停機制」消滅難以被核查的開源模型生態，為頭部巨頭建立高昂的合規准入門檻，以鞏固寡頭壟斷地位。
地緣防禦與攻擊性軍事的灰色邊界：
為了防止「壞人拿到技術，好人需要防守」，他們與美國軍方開展國防合作，但 Claude 卻實質參與了中東的轟炸目標鎖定。這在客觀上將防守定位轉變成了攻擊性軍事行動的一部分，使得「人道、不說謊、不危害」的憲法原則在軍事殺戮面前顯得蒼白。