AI前沿解密》龍蝦OpenClaw爆紅 AI代理被忽視的核心問題（朱玉昌） - 台灣妹的部落格

此刻，AI世界裡，一隻俗稱「龍蝦」的開源程式OpenClaw，迅速爆紅，吸引無數工程師、開發研究者、創業人士與技術玩家下載嘗鮮，這隻「龍蝦」不只回答問題特別機伶，重點能動手做事。在許多工程師眼中，這款開源模型，開啟了AI從聊天工具，奔向能真正執行數位代理任務的新階段。

近幾年，如ChatGPT、Claude 或 Gemini 這類大型語言模型，主要扮演回答問題、整理資訊、撰寫文字等顧問角色，但OpenClaw把這些能力整合成一個能運作的系統。使用者只需給出目標，例如整理市場資料、安排旅程或撰寫研究摘要，代理便會自行拆解任務、查詢資料、呼叫工具、產出結果。它可以寄送電子郵件、整理文件、搜尋網頁、呼叫資料庫，甚至執行程式腳本。換言之，AI不再只是提供建議，而是開始參與工作流程。

這種模式迅速吸引企業界的注意，全球知名的科技顧問公司高德納（Gartner）預測，到2026年，大約4成企業軟體將嵌入任務導向的AI代理（AI Agent）。對企業而言，這意味著新的自動化方式，將不再是單一程式完成固定功能，而是一群能理解任務、彼此協作的數位助手。市場研究機構如宏偉視野研究（Grand View Research）與市場研究（Research and Markets）等報告均指出，AI代理市場正處於高速成長期。部分估計顯示市場規模約在 2025年的70至80億美元之間，並可能在未來10年內成長至數百億甚至上千億美元規模。

當科技界沉浸在這股熱潮時，一篇來自瑞士的研究卻提出了令人不安的問題，這些代理真的能協作嗎？

3月初，蘇黎世聯邦理工學院（ETH Zurich）研究團隊，在arXiv平台發表論文〈AI代理能否達成協議？〉（Can AI Agents Agree？）。研究由AI領域與分散式系統知名教授羅傑．瓦滕霍夫（Roger Wattenhofer Frédéric Berdoz）帶領分散式計算實驗室（DISCO Lab）兩名研究學員共同完成。這個團隊長期研究去中心化系統與容錯機制，對於「多個節點如何在不完美環境中達成一致」有深厚經驗。

他們選擇了計算機科學中，著名的「拜占庭將軍問題」Byzantine Generals Problem的經典難題作為測試，這個問題最早在1980年代提出，用來描述在可能存在叛徒的情況下，分散系統如何達成共同決策。研究者將「將軍」換成AI代理，並使用阿里巴巴的Qwen模型（8B與14B版本）驅動。實驗中有4到16個代理同時參與，它們必須就一個0到50之間的數值達成一致，為了排除利益干擾，代理對結果沒有任何偏好，也沒有獎懲機制。

任務看似簡單，結果卻出乎意料，在完全沒有惡意參與者的狀況下，所有代理成功達成共識的比例只有41.6％，較大的模型表現較好，14B版本成功率約67.4％，而8B版本只有15.8％。當參與者數量增加時，情況更糟。4個代理的成功率約為46.6％，到了16個代理，只剩33.3％。如果系統中加入一個惡意代理，成功率便迅速崩潰。

較耐人尋味的，失敗往往不是來自精心設計的攻擊，而是相對基本的系統停滯問題，研究者稱之「活性喪失」（loss of liveness）。代理常常陷入重複討論，或無法結束投票程序，即便答案已經非常接近。換句話說，它們並非無法思考，而是難以在群體中形成穩定的決策。

這個發現點出一個容易被忽略的事實，單一AI代理與多代理系統是兩件截然不同的事情，一個模型或許可以完成任務，但當多個模型需要彼此協調時，複雜度便急劇上升，每一個步驟的微小誤差都可能累積，最終導致整個流程失敗。研究者指出，如果一個任務需要多個連續步驟，即使每一步的成功率高達95％，整體成功率仍可能跌到3成多。

這些結果也與另一個趨勢相呼應，AI模型在實驗室中的表現往往優秀，但在長時間運作的實際環境中，穩定度依然有限。根據《邁向AI代理可靠性科學》（Towards a Science of AI Agent Reliability）這分產業研究顯示，多數機器學習系統，在部署後會逐漸出現性能下降。高德納公司甚至預測，未來幾年內，許多AI代理專案可能因成本與風險問題而被取消。

OpenClaw爆紅代表了一個重要轉變，AI正從回答問題的工具，變成能執行工作的系統。但瑞士這項研究顯示，真正困難的問題，不在於讓AI變得更聰明，而在於讓它們能夠可靠地合作。未來辦公室，可能充斥許多AI代理，但協作問題沒解決，它們只會是一群效率很高，卻彼此難以協調的數位個體。對企業和政策制定者而言，該掌握的是，AI下個關鍵挑戰，不是能力，是可靠性。

（作者為富瑜文教基金會執行長）

※以上言論不代表旺中媒體集團立場※