此刻,AI世界裡,一隻俗稱「龍蝦」的開源程式OpenClaw,迅速爆紅,吸引無數工程師、開發研究者、創業人士與技術玩家下載嘗鮮,這隻「龍蝦」不只回答問題特別機伶,重點能動手做事。在許多工程師眼中,這款開源模型,開啟了AI從聊天工具,奔向能真正執行數位代理任務的新階段。

近幾年,如ChatGPT、Claude 或 Gemini 這類大型語言模型,主要扮演回答問題、整理資訊、撰寫文字等顧問角色,但OpenClaw把這些能力整合成一個能運作的系統。使用者只需給出目標,例如整理市場資料、安排旅程或撰寫研究摘要,代理便會自行拆解任務、查詢資料、呼叫工具、產出結果。它可以寄送電子郵件、整理文件、搜尋網頁、呼叫資料庫,甚至執行程式腳本。換言之,AI不再只是提供建議,而是開始參與工作流程。

這種模式迅速吸引企業界的注意,全球知名的科技顧問公司高德納(Gartner) 預測,到2026年,大約4成企業軟體將嵌入任務導向的AI代理(AI Agent)。對企業而言,這意味著新的自動化方式,將不再是單一程式完成固定功能,而是一群能理解任務、彼此協作的數位助手。市場研究機構如宏偉視野研究(Grand View Research)與市場研究(Research and Markets)等報告均指出,AI代理市場正處於高速成長期。部分估計顯示市場規模約在 2025年的70至80億美元之間,並可能在未來10年內成長至 數百億甚至上千億美元規模。

當科技界沉浸在這股熱潮時,一篇來自瑞士的研究卻提出了令人不安的問題,這些代理真的能協作嗎?

3月初,蘇黎世聯邦理工學院(ETH Zurich)研究團隊,在arXiv平台發表論文〈AI代理能否達成協議?〉(Can AI Agents Agree?)。研究由AI領域與分散式系統知名教授羅傑.瓦滕霍夫(Roger Wattenhofer Frédéric Berdoz)帶領分散式計算實驗室(DISCO Lab)兩名研究學員共同完成。這個團隊長期研究去中心化系統與容錯機制,對於「多個節點如何在不完美環境中達成一致」有深厚經驗。

他們選擇了計算機科學中,著名的「拜占庭將軍問題」Byzantine Generals Problem的經典難題作為測試,這個問題最早在1980年代提出,用來描述在可能存在叛徒的情況下,分散系統如何達成共同決策。研究者將「將軍」換成AI代理,並使用阿里巴巴的Qwen模型(8B與14B版本)驅動。實驗中有4到16個代理同時參與,它們必須就一個0到50之間的數值達成一致,為了排除利益干擾,代理對結果沒有任何偏好,也沒有獎懲機制。

任務看似簡單,結果卻出乎意料,在完全沒有惡意參與者的狀況下,所有代理成功達成共識的比例只有41.6%,較大的模型表現較好,14B版本成功率約67.4%,而8B版本只有15.8%。當參與者數量增加時,情況更糟。4個代理的成功率約為46.6%,到了16個代理,只剩33.3%。如果系統中加入一個惡意代理,成功率便迅速崩潰。

較耐人尋味的,失敗往往不是來自精心設計的攻擊,而是相對基本的系統停滯問題,研究者稱之「活性喪失」(loss of liveness)。代理常常陷入重複討論,或無法結束投票程序,即便答案已經非常接近。換句話說,它們並非無法思考,而是難以在群體中形成穩定的決策。

這個發現點出一個容易被忽略的事實,單一AI代理與多代理系統是兩件截然不同的事情,一個模型或許可以完成任務,但當多個模型需要彼此協調時,複雜度便急劇上升,每一個步驟的微小誤差都可能累積,最終導致整個流程失敗。研究者指出,如果一個任務需要多個連續步驟,即使每一步的成功率高達95%,整體成功率仍可能跌到3成多。

這些結果也與另一個趨勢相呼應,AI模型在實驗室中的表現往往優秀,但在長時間運作的實際環境中,穩定度依然有限。根據《邁向AI代理可靠性科學》(Towards a Science of AI Agent Reliability)這分產業研究顯示,多數機器學習系統,在部署後會逐漸出現性能下降。高德納公司甚至預測,未來幾年內,許多AI代理專案可能因成本與風險問題而被取消。

OpenClaw爆紅代表了一個重要轉變,AI正從回答問題的工具,變成能執行工作的系統。但瑞士這項研究顯示,真正困難的問題,不在於讓AI變得更聰明,而在於讓它們能夠可靠地合作。未來辦公室,可能充斥許多AI代理,但協作問題沒解決,它們只會是一群效率很高,卻彼此難以協調的數位個體。對企業和政策制定者而言,該掌握的是,AI下個關鍵挑戰,不是能力,是可靠性。

(作者為富瑜文教基金會執行長)

※以上言論不代表旺中媒體集團立場※