《人文之心,機器難及:AI應用於人文領域的「效能」再思》
(發表於「風傳媒」6/18/2025,連結於此)
王道維
清華大學物理系教授
清華大學諮商中心主任
清華大學人文社會AI應用與發展研究中心副主任
摘要:本文反思了人工智慧(AI)在應用於人文社會領域時,「效能」作為技術追求目標的適切性與侷限性。作者指出,當前主流AI技術多以標準化、普遍化、量化可測的效能指標為核心設計原則,往往忽略了多元觀點、歷史脈絡、情感交互與反思實踐等人文關懷的核心價值。筆者從幾個層面來觀察:其一,技術上的「效能」不等同於實際應用上的「效果」;其二,效能的強化可能加劇誤用與依賴風險;其三,強調效能的AI模型難以支持非主流的價值觀與創造性思維,甚至可能抹除人類探索中最有意義的挫敗經驗。筆者主張,AI與人文領域的協作應採取有所不為的「虛線」路徑,讓AI處理重複性與庶務性工作,將核心的深度思辨與人性溝通留給人類,才能讓AI應用於人文社會領域時可保有人性的思考過程與當下的文化脈絡。即便最後的效率可能不是最高的,但仍可成為他人同理共情的基礎,保留文化無可模擬的真實性。因此,筆者認為AI應用於人文社會領域時,不應以效能指標來定義AI的價值,而應讓AI設計納入人文多樣性的視野,建構真正有益於人類社會的協作關係。
本文:
隨著AI技術突飛猛進,各種生成式AI模型與智慧助理(AI Agent)開始廣泛應用於產業與工程領域,自然也讓許多人對AI應用於人文社會領域的未來充滿期待。筆者個人近年來因為參與「AI公共化」[1]的理念實踐,開發若干AI應用於司法、教育、心理與社工等領域,有較多的機會與不同領域的人社學者或第一些人員合作,並從旁觀察的機會。
筆者從這些交流中感覺到,相較於產業界或理工科系對於AI發展有比較明顯樂觀的期待,即使AI科技有機會協助人社領域的學者學生或相關工作者提升其效能,但是其整體上還是會對AI的發展保持高度懷疑:除了常見的對於「隱私保護」、「智慧財產」、「人權監控」與「產業變化」等疑慮外,人社學者其實對於AI科技所強調的「應用效能」本身有更加複雜的思考,也是本文想要著重說明的部分,希望能提升AI技術與人社領域之間的對話與溝通。
一、效能的普遍主義:
在當前AI新聞充斥,幾乎每週都有刷新進步的AI效能競賽中,為求評比客觀公平,往往是以撰寫程式(如HumanEval)、數學競賽(如GMS8K,Grade School Math 8K)、學科測驗(如MMLU,Massive Multitask Language Understanding)或科學問題(如AI2 Reasoning Challenge)等等作為比較的標準,因為這些試題都是有標準答案而可以量化計算的,並且有相當的普遍性,不受文化、時空或地域的差異性所影響(但的確都是英文試題)。
這種為了達到普遍性的最優解而設計的AI,往往卻也正是人文領域所質疑的:如果每個人都有其獨特性,如何可能有個工具適合所有的人?如果某個AI對某些人不合適,其「優秀的效能」又有何意義?當然,質疑這種「普遍主義」並不等於要否定其價值,而是代表中間應該要有更多討論對話的空間,讓更多的因素被考慮,而非一昧的以「增進效能」作為持續投資發展的理由。雖然近年來也有一些AI設計方法,如『價值敏感設計』(Value-Sensitive Design[2])等,試圖在技術建構過程中引入倫理與人文的反思,但畢竟仍非AI技術領域的主流思考。
二、效能不等於效果:
從技術想像到應用場域的過程,在技術工程常見的思維是:只要目標可以清楚定義,沒有根本上的物理、法規或資源限制,未來更好的技術與更大的算力一定可以逐步實現相關的應用。然而這種思維模式常將「技術做得到的」與「能被有效接納的」兩個概念混淆。因為人社領域的重要問題往往不是只有正確精準與否,而是包含整體的情感連結、互動深度、歷史脈絡、社會文化、多元觀點、或思辨反省等等這類難以量化,但可能更為重要的價值有關。高效能甚至不一定是帶來好效果的必要條件。
舉例來說,假設AI應用於司法判決預測可以得到相當準確的結果,但這樣的AI是要給法官使用嗎?還是給訴訟當事人?對前者似乎多此一舉,而後者使用是否可能干擾審判的獨立性?還是應用於法庭外的調解流程會更有意義?但這當然需要搭配調解人員的訓練與訴訟制度的支持。這使得「效果」難以僅以AI量化的速度與精度衡量,甚至有時更需要「慢一些」或甚至「有些缺陷」才有機會讓人深入探索,折衝反思,廣納參與,帶出更好的效果。
二、效能也強化誤用:
過往科技產品由於不牽涉到智慧能力,大體來說還是可以保持其工具的中立性,讓使用的決策責任落於運作此科技的業者或政府自身,還可以透過法律規範或民主監督來減少誤用。但是自從ChatGPT等聊天機器人橫空出世後,AI的應用端已經落地到幾乎每一個有網路的個人,這使得AI效能的強化也必然放大了人性內在的弱點,使之以更為直接卻更難被管理的方式影響人類社會。
例如生成式AI大量應用不到兩年,其最多人的使用方式就不再是解決工作上的問題,而是轉向個人性的情感性或隱私性的對話[3]。根據近年研究,部分使用者在與情感性AI對話中產生了移情作用(transference),使得使用者在情緒或心理的脆弱時期會更對AI產生情感依賴,有些時候甚至帶來不幸的意外。這類互動對人類(特別是年輕世代)心理健康的負面影響是難以衡量,卻更無法忽視的[4]。
三、研究目標的錯置:
AI效能的重要性其實決定於所設定的目標:只要目標越清晰越具體,就越有機會在AI訓練過程中優化相關參數或計算資源,達到比以前更好的成效。此外,AI是透過統計與機率的複雜模型來處理大量資料,自然傾向選擇以最常見或最安全的說法來回應,才能在各樣的測試中得到最多的認可,這使得它難以真正支援具挑戰性或非主流的價值觀點[5]。
但是在許多人文社會領域(包括部分基礎科學)的研究中,許多重要的發現都需要來自研究者或者應用者個人在實踐過程中的探索、質疑、折衷與反省,才能提供出許多豐富的視角。例如心理學界歷來發展出多種理論,如行為主義、精神分析、人本心理學等等,與其各樣演變延伸的流派。這也是因為每個人的特質與所處的情境使如此複雜多變,使得心理學不可能化成物理學那樣既單一又普遍有效的體系。這也使得以「最優」效能為目標的AI模型對此僅能給出泛泛的描述,往往很難在實際應用中對其細緻差異處或個人處境給出深度的效果。
四、挫敗反思之必要:
當AI的效能提高,也自然代表在訓練或應用的推論過程可以有效地處理或避免了過往路徑的困境,但是後者這些「負面」經驗也可能是許多研究過程中所不可少的部分。畢竟當人類在與環境、人際、歷史或資料互動博弈的過程中,困頓於某些「不合理」的結果時,才有機會進行跳躍式的思考,提出過往所沒有的觀點。但是如果這個過程被壓縮成輸入與輸出之間的函數關係讓AI模擬,即便出現如「思維鍊」(Chain of Thoughts)的AI推理模型[6],也無法讓使用者在這些反覆試驗、錯誤修正與懷疑驗證的過程中,讓「人類自己」有所成長。
這個過程的重要性在教育領域特別明顯,畢竟如果AI總是給出正確的答案,我們該如何引導學生能發現自己思考的錯誤或知識節點的問題呢?過度依賴AI的效能而未考慮人類自身參與的角色,可能讓人誤以為整個過程都不再重要,進而失去對問題本質探究的興趣。或者更準確來說,我們所需要的是建立人類與AI合作的新範示,而非粗暴的認為AI效能提升必然帶來有價值的結果。
五、有所不為的協作:
另外有些人社領域的工作者對AI的應用是滿心期待,以為AI可以直接解決他們工作中最困難的部分(如法官以為AI可以代為審判、心理師以為AI能代為諮商、教師以為AI能代為教學互動等等),但是往往落得失望收場。事實上,如前所述,AI應用於人社領域可能最合適的方式是「有所不為的」避開其核心部分,先從其工作中較次要的外圍,卻可能花費最多時間的庶務開始(如查找資料或行政報告等)。當這些大量重複的工作交由AI處理,人類專家才能節省出寶貴的時間,專注在真正屬於人性的思考或陪伴。
舉例來說,社工的專業本應是展現在對個案的關懷,並且在不同單位間作資源協調。可是現實的社工往往需要花大量的時間撰寫訪視紀錄或制式報告,形成人力資源的浪費。但是後者卻可能是AI應用很好的切入點:若應用AI來大量減少紀錄報告的撰寫時間,社工自然更能細心地應用其專業練帶給個案更高品質的服務,也提升社工自己的內在力量。而透過AI應用將這些行政資料治理標準化,亦可強化資源調度與趨勢分析的效果,一舉創造多贏的局面。
結語:從實線化成虛線
綜合以上的討論,筆者認為或許可以用附圖來呈現人社領域與AI協作的幾個可能模式:當人類獨立完成從「動機」到「目標」的所有過程時,可以說是一條實線將兩者相連(圖A),雖然可能崎嶇蜿蜒,但個人化的脈絡清晰可尋。但是如果這個過程完全由高效能的AI (如智慧助理AI Agent) 取代,則人類的參與就幾乎只有頭尾兩個點(圖D),代表下達指令與驗收評估,也因此失去了所謂的「人味」。而後者往往就是資工領域對於通用AI發展所期待的技術目標:只有全自動化的AI運作,不需要人類中途的介入,才能更快、更準也更省錢,充分展現所謂的AI效能。
但是如前所述,對人社領域而言,這個從動機到目標的「過程」不應也無法完全被AI取代(事實上,可能連目標本身也不見得可以清楚定義)。所以如果大多數過程都由AI處理,人類只需要若干決策點介入取捨,就會形成看不太出人性化脈絡的點集合(如圖C),也因此少有可由人性理解珍惜的品味。但是如果我們僅將中間許多次要或重複的部分交由AI執行,人類仍然參與整個重要決策的形成,寧願多花一點點時間也希望保留這些折衝、探索或甚至跳耀的過程,最後就會形成一條有人性脈絡的虛線(圖B),讓後人有跡可循,還可以同理共情,繼續對其他人類有所啟發。
其實這幾種不同AI與人類的合作模式並無絕對優劣,所適合的工作領域也有所不同。在強調效能的領域,實線段會稀少,但它所承載的過程經驗與細節也隨之消失,讓彼此間的關係也就變得模糊混亂。畢竟AI的運作不是傳統的結構化的流程圖,有其無法解釋的隨機性,所以全自動化後很難掌握其運作的脈絡。
因此,當我們反思AI的效能時,並不是批判技術的限制,而應開啟一條創造性的對話路徑:如何將人文社會領域的核心價值──如觀點的多樣性、錯誤的啟發性、文化脈絡的敏感性──嵌入AI的設計過程中,建構出更好的AI與人類協作模式(如圖B),也許沒有那麼有效率,但卻重新定義「什麼才是合適的AI效能」,讓未來的AI能夠成為一種真正支持人類文化發展的創新工具。
[1] 可參考,王道維,〈被企業壟斷的AI? 達成社會共善的AI公共化願景〉,科學月刊》)。引用網址:https://www.scimonth.com.tw/archives/12418。
[2] Friedman, B., & Hendry, D. G. (2019). Value sensitive design: Shaping technology with moral imagination. The MIT Press. DOI: https://doi.org/10.7551/mitpress/7585.001.0001。
[3] Marc Zao-Sanders, “How People Are Really Using Gen AI in 2025”, Harvard Business Review (4/9/2025)。參考網址:https://hbr.org/2025/04/how-people-are-really-using-gen-ai-in-2025。
[4] 張瑞雄,「生成式AI」心理諮詢機器人 可能是精神健康危機的導火線?,ETtoday 雲論 (3/26/2025)。參考網址:https://forum.ettoday.net/news/2931362。
[5] 雖然AI技術上可以透過溫度參數的設定、人類回饋的強化式學習(Reinforcement Learning by Human Feedback)或控制生成(Control Generation)的方式來產生非主流的特殊結果,但是前者只是增加隨機性而後兩者是一種條件機率的強化,都不能算是一種具有人性本體意義的獨特性。
[6] 可參考以下的簡介,〈推理模型是什麼?從 GPT-4o 到 o3,一次看懂 ChatGPT 模型差異與應用場景〉,Aiworks by AppWorks School (5/14/2025)。引用網址:https://aiworks.tw/blog-reasoning-o-model/。
下一則: 生成式人工智慧於親權事件調解之應用 —Le姐家事商談好夥伴的設計理念與實務功能說明 (發表於《當代法律》)