Contents ...
udn網路城邦
從AI資料的使用、生成與爭議,邁向更有效的資料治理(將發表於《數位社會的智慧治理》李建良主編)
2025/11/10 15:35
瀏覽505
迴響0
推薦3
引用0

從AI資料的使用、生成與爭議,邁向更有效的資料治理[1]

王道維

清華大學物理系

清華大學人文社會AI應用與發展研究中心

 

摘要

隨著生成式AI的崛起,資料的取得與使用方式正重塑整個知識生態。自2024年底以來,AI生成內容的比例已與人類創作相當,象徵人機界線逐漸模糊,也使資料的來源、授權與價值評估與以往的資料保護定義有所不同。以20256月,美國與台灣所出現兩起具有指標性的AI資料與著作權判決為例,前者涉及Anthropic以合法與非法管道取得資料進行AI訓練的界線,後者雖非直接與AI有關,卻凸顯出法源資訊與Lawsnote兩家公司對於資料擷取與商業利用的合理範圍有不同的看法。本文將以「AI公共化」的架構為基礎,認為政府應主導的開放資料來健全資料治理的機制,才能在保障隱私與法規的前提下,促進公共利益導向的AI應用,間接鞏固「主權AI」的資料基礎。而資料治理的內容除了傳統上所包涵的資料管理系統、分層分工、有效應用、資料串接、符合法規及安全防護等六大要素,在AI時代還需要將過往對待資料的「靜態管理」邏輯轉為「彈性管理」,並且充分區別AI模型訓練與推理的目的或功能上的差異,才能有效處理AI應用的倫理議題,避免過度甚至反效果的監管。以上述台灣的案件為例,本文建議要區分「編輯著作」與「後製產物」的不同,前者可透過市場化授權平衡創作者與使用者權益,後者則應視為可大量交易的商業產物,應鼓勵網路爬蟲的使用以促進資料的再利用。本文最終目標在於建議透過制度化的資料治理,使得政府資料進一步可以標準化並應用於實務決策,使AI成為提升公共治理效能與社會公平的正向力量。

    前言

 

根據AI搜尋引擎公司Graphite的研究[2],從2020年到2025年間,AI生成的文章在202411月開始超過了人類撰寫的文章比例。這示AI已經從邊緣角色轉變為資訊世界中的主導力量之一。雖然其成長趨勢目前已見停滯,歸因於AI所生成的內容比較容易被搜尋引擎刻意的篩選掉,但這也仍可以明顯看出,AI已經成為資訊世界的主導力量,象徵著人類與機器之間的界線逐漸模糊。

 

這個轉折點顯然是發生在 ChatGPT 問世之後,代表的是一場內容生態的權力重組:「創作」的門檻被徹底打碎,文字或影音發表的節奏被機器主導,資訊的可信度與原創性的標準,也都開始要重新定義:任何人都能更方便的進入創作,但其原創的價值也就更難被定義。但是我們也知道,AI也需要使用網路上大量的人類創作資料(包括文字、圖像、影音、數據等等)來訓練更強大的AI,因此在這樣的狀態下,如何重新定義「資料價值」並調整對應的保護方式,顯然也應該是未來資料治理的重要目標。

 

    背景:資料的價值與意義

 

若以具體的例子而言,可以回溯到今年(2025)6月,在美國與台灣各有一個受到矚目,關於(訓練AI模型所需要的)資料與著作權之間的判決出爐。這對於未來AI應用的落地發展有相當重要的影響。

首先是,2025623日,美國聯邦法官William Alsup裁定[3],新創公司Anthropic未經授權複製購買的書籍進行數位化且用於訓練其生成式AI系統,根據美國著作權法,這種「消極數位化」及用於AI訓練的行為屬於合理使用且合法。但是Anthropic從盜版網站如LibGen等取得的超過700萬份書籍著作屬於侵權,不被認定為合理使用,法官將於202512月決定賠償金額。因侵權作品數量龐大,賠償金額估計可能達數十億美元。此案成為生成式AI著作權合理使用的首例重要司法判決[4]

 

沒隔幾天,根據新北地方法院判決[5],台灣法源資訊公司指控七法公司(Lawsnote)違法透過爬蟲程式抓取其法學資料庫中的具編輯著作權保護價值之「法規沿革」與「附件」等內容,用於商業營利,屬著作權侵害(以下稱作「法源vs Lawsnote」案)。經法院審理,判處七法公司兩位共同創辦人分別是4年與2年的有期徒刑,並判連帶賠償法源資訊公司逾1億元新台幣。此案對國內法律科技創業者和資料庫使用者有重大警示作用,強調合規合法取得與授權的重要性及風險[6]

 

AI公共化來看政府與司法的責任

 

由於筆者目前也在作AI應用相關領域的研究,同時需要蒐集大量資料(例如司法院的裁判書,或社群媒體的文章)並與相關領域學者合作進行相當數量(每個專案都上千篇)的人工標註,所以對這兩個結果似乎相反的判決,感到相當複雜的心情。而這也是筆者在「AI公共化」[7]中所提到政府或司法部門需要積極關切介入的部分:包括適當的修改法律來增加資料保護,亦可同時推動AI發展,這兩者不應該是矛盾的,反而是相輔相成的。

 

筆者所說的,「AI公共化」是相對於近年來AI出現明顯的「資本化」趨勢:大型跨國企業憑藉雄厚資金與龐大數據資源,壟斷了AI 技術的開發與應用,也大量吸納學界人才,使學術研究逐漸淪為配角。這種資源集中不僅加劇社會不平等,更可能侵蝕民主制度與文化多樣性。為因應此現象,「AI公共化」應由政府主導,藉由適當的開放公共資料,促進人文社會與AI技術領域學界的跨域合作,發展非營利導向的AI應用,讓科技成果回饋社會大眾。其推動方式上可分為以下幾個層面[8]

 

首先,政府應建立健全的資料治理政策,於保障隱私與安全的前提下,開放經去識別化的在地資料,讓學界運用於公共利益導向的AI訓練,從資料的源頭開發出具有社會價值的AI系統,避免AI發展被私人資本壟斷。其次,人社學者應積極參與資料整理與分析,提出具文化脈絡與社會意義的研究方法,提升資料品質與政策價值。第三,技術開發應採由下而上的模式,也就是以區域化或領域內的資料並社會實際需求為核心,發展能回應公共需求的AI系統,而非一概以通用型的功能來取代個別領域的需求。

 

第四,政府需改革僵化的學術評鑑制度,重視跨領域合作與社會實踐成效,鼓勵學者的社會參與;同時檢討現行《著作權法》與《刑法》等資料保護法規,使AI模型可以更合法的運用公共資料,避免法制落後於科技發展。第五,透過AI公共化而促進政府資料標準化與決策透明度,提升公共治理效能,並使AI 成為社會共善的推動力量。最終,學界的研發成果可經由社會企業或公私協作轉化為可以長期維護運作的產品,讓AI不僅服務於產業以提升效率,更能促進社會公平與文化多元的永續發展。

 

由此可以看出,以「AI公共化」的角度來看,本文前述在美國與台灣兩地的不同方向判決,不該只是一般關於私人企業或創作者之間的民事糾紛,政府或司法單位作為中間者來仲裁,恐怕反而顯示出政府立法部門與司法行政其實不可能也不應該置身事外,需要具有更前瞻與智慧的評估,讓以後可能更多的類似資料處理事件可以得到更好的處理。也就是說,政府參與「AI公共化」的意義在於讓相關對於AI應用倫理的倡議走向「合規」,使相關的發展可以有制度化的處理,也因此需要更全盤的分析思考

 

反之,如果沒有趁此機會作更細緻的檢討,未來勢必會有更多或更複雜的問題出現,間接使得AI難以落實公共化的方向或相關創作環境被扼殺,無法將AI的益處普及到更多的社會大眾。這與歐盟AI法案(EU AI Act)第10條「資料與資料治理」[9]規範了高風險AI系統在使用訓練、驗證及測試資料時,需遵守的資料治理與管理義務是相符合的。為了要進一步說明這些法規所可能需要考慮或調整的方向,筆者認為需要先介紹「資料治理」的基本概念,以及在AI時代所需要特別調整或加強的方向。


AI時代的資料治理

 

「資料治理」(Data Governance)是組織為了確保其資料資產的品質、合規、可用性及支持業務目標而建立的一套制度化管理體系[10]。它包括政策、流程、角色、技術、指標等多維度內容[11]── 具體來說,透過資料治理,組織能確定「哪些資料可以被誰在何時以何種方式使用」,進而達成「資料可信、資料可用、資料安全」的目標。考慮到文章長度的限制與避免主題偏移,以下僅就其中所包含的六個重要概念簡述如下[12]

 

(1) 資料管理系統:組織內部為了落實資料治理所建構的「資料管理平台」,使資料從收集、整合、儲存、運用、刪除等生命周期都能被追蹤與管理。(2) 分層分工負責:需要訂立明確的角色與責任,如資料擁有者、資料管理者、資料使用者等,各在平台中有不同的權限與責任。(3) 資料有效應用:資料不僅要具備可用性,還要能真正支援業務/決策,例如產生報表或或供AI/機器學習的應用。(4) 資料更新串接:資料在收集後是會隨時間變動,必須設定更新機制且需建立標準化接口和交換流程,讓不同系統或不同資料來源之間可以方便整合與互通。(5) 資料符合法規:治理需遵守《個人資料保護法》、《著作權法》與相關行業法規,以建立資料的可信任度。(6) 資料安全保護:涵蓋了技術層面(如加密、遮蔽、偵測、備份等),流程與政策層面(如定義資料使用者權限、資料分類、資料流向監控等),並組織與文化層面(如培訓資安意識、定期安全稽核及監督機制等等)

 

因此,我們可以看到一個專業的資料治理絕非單點作業,而是一個需要結合技術與管理能力的全面性與綜合性的能力。但是當我們進入AI時代,以上傳統的資料治理固然仍有其重要性,但也需要作些相應的變革,以應付特別是「大型語言模型」(LLMs)或「生成式AI」(Generative AI)的出現。這主要來自以下三個原因:(1) 資料治理在AI時代需更強調數據的完整性、準確性與一致性,因為資料錯誤或不一致會直接導致AI模型產出錯誤結果或偏差,影響決策和自動化流程。(2) AI應用涉及大量非結構化數據(如影像、文字、語音等)及多來源跨領域資料整合,資料治理架構需要擴充以管理更複雜的資料來源和格式,才能確保跨系統協調和資料整合的順暢。(3) AI對個人敏感資料的使用更廣泛,資料治理必須強化對隱私保護和法規遵循的監控 (4) AI系統通常需要即時或近即時的資料更新與反饋,資料治理流程因此更趨向自動化,結合AI工具進行資料檢測、異常監控、權限管理等,有別於傳統多依賴手動或批次處理的資料治理。

 

簡要來說,由於生成式AI的興起,我們傳統上對於「資料」的靜態定義面臨巨大的挑戰,甚至已經無法反映需求。畢竟生成式AI需要大量的預訓練資料以及優良的標註資料來訓練模型,讓資料治理的標準變得更為嚴苛。同時,AI也會生成大量新的文字或影音資料,成為人們閱讀或觀賞,甚至知識傳播的內容。這類快速產生的「資料」也成為資料治理的嚴重挑戰。

 

因此,整體來看,這類新的變化主要是使資料治理的邏輯需要從過往的靜態管理轉向「彈性管理」與「倫理導向」。前者是為了應對AI模型需要使用大量開放資料或網路爬取資料進行訓練,但這些資料的來源、授權、偏誤與真實性難以追溯。此外,AI模型經常是在雲端的伺服器計算,往往是在其他國家進行。但是各國法規對資料傳輸的要求不一致,造成治理難度上升。而後者主要是因應生成式AI的模型本身就是「將知識壓縮後的資料」,但是在推論使用的時候還是有許多應用環境與個資相關的倫理議題需要注意[13]

 

    AI訓練過程區分不同的資料類型

 

由於生成AI技術的發展非常快速且應用面廣大,目前社會上大多數人對其基本原理了解的都還很少,大概只知道AI需要許多人類的資料來訓練,但是真正的情形還複雜許多。考慮到與資料的關係,我們約可以將生成式AI的運作大致上可以分為三個階段,也就是預訓練(training)、微調(fine-tune)與推論(inference)。至於其中有些階段,例如強化式學習等,是不太需要有人類現成的資料參與,此處就先省略不提。

 

1. 在預訓練階段,AI工程師需要大量的真實資料(例如人類的文字或影音)來訓練AI模型,讓AI內部大量的參數(parameter)來模擬人類文字表達的規則或習慣(通常稱為「自我監督式學習」(self-supervised learning),也可以看成一種「無監督式學習」)。由於這階段需要的資料非常龐大,通常是完全沒有結構性的。因為AI模型會透過「遮掩預測」(mask prediction)或「下一詞預測」(next-token prediction)等任務,讓模型根據上下文自行推論出被隱藏的字詞,進而捕捉語言的統計關係與語意結構。所以此時的訓練資料只要文字通順達意,符合慣常用法即可。也因此,這類的資料絕大多數都是網路爬蟲去自動抓取的,只有少部分是來自於特定機構或非網路儲存的資料庫。在本文以下可以稱之為「原創資料」。

 

2. 在微調訓練階段,雖然有許多不同的方式,但是基本上是用有結構化或者人工標註過的資料(通常數量比較少)來調整少量關鍵的參數,目的是為了讓模型最後可以儘可能模擬出原先所預想的答案,也就是提高準確率而減少錯誤(通常稱為「監督式學習」)。不過這裡需要補充的是,即使不是生成式AI也可能會使用使用這類「標註資料」,透過監督式學習的方式,來訓練不同的AI模型(例如分類模型或預測模型)。若以大型語言模型(Large Language Model, LLM)為例,這個階段也包括人類回饋強化式學習(RLHF, Reinforcement Learning from Human Feedback):先以人類評分不同回覆的品質,再利用「獎勵模型」(reward model)來學習人類的偏好,最後再透過強化式學習來微調模型,使其生成更符合人類價值與指令意圖的回答。這些階段的結合,使語言模型可以同時具備語言知識與社會語用的適應性[14]。因此,這類資料已經不適合單純從來源來定義,而只能從其功能或目的來定義。在本文以下稱之為「標註資料」。

 

3. 最後,在推論階段,AI 開始根據輸入的提示詞(prompt)來計算機率最大的結果來輸出作為答案。以ChatGPT這類大型語言模型為例,不論是否能夠回答某些問題、還是表現的讓人覺得有情感,都只是在透過這些參數來模擬人類資料之間的關聯性。類似的結果也可以用在圖像生成或語音生成方面。此時我們需要注意,AI所生成的資料即使與人類一開始提供的資料完全一樣,也不代表就是照抄過來的結果,也仍然是經過機率的計算與擬合,才重新產出的文字或圖像。因此嚴格來說,這些輸出資料是來自於AI,而非人類原來所有的,但是目前各國都認為這樣的資料不具保護的價值,可以稱之為「生成資料」。

 

以上的說明主要是希望先針對「資料」的內涵,從生成式AI的角度作重新的整理,區別出「原創資料」、「標註資料」、「生成資料」三者的差異。因為至少這三類資料的形式與意義是不一樣的,只是來源(人類完成還是AI生成)上可能會逐漸混淆。因此我們在AI時代的資料治理,也應該對這類基本概念有更精緻的區別,才能讓相關的治理達到更好或更有效的目的。相關的概念可以用表一來表達:

 

表一:從AI模型不同的訓練階段來看不同類型的資料與其比較適當的保護原則

AI模型階段

訓練階段

推論階段

資料類型

原創資料

標註資料

生成資料

來源

一般人(包括AI修繕)

特定領域的專家或更好的AI模型標註

主要是AI生成

(包括人類修改)

形式

多是無結構化的

有結構化的

依需求而定

AI運作方式

預訓練

微調(或預測/分類型)

推論或生成階段

AI學習類型

無監督式(或自我監督式)學習

監督式學習(包含人類回饋的強化式學習)

不適用

AI學習目標

模擬人類寫作習慣

模擬人類價值/經驗/知識/倫理等判斷

生成符合使用者所期待的內容

本文建議的保護或監管原則

創作者有完整的著作權,可決定是否提供給AI使用,但政府應鼓勵建立商業性的應用與回饋/分潤機制,確認著作權歸屬。

主要為「後製產物」而非「編輯資料」。標註者或執行機構擁有部分的著作權。但是自公共資料的標註結果應於一定時間後公開,搭配商業性的應用與回饋/分潤機制。有爭議時應以民事訴訟為主。

AI生成的結果不具有著作權,但須要符合AI相關的資安、著作權、個領域應用倫理的規範。

 

    AI訓練過程釐清不同資料的角色與價值

 

從以上區別不同資料的定義與形式以後,此處筆者在從幾個AI技術的角度說明幾個容易被誤解的概念,以免錯估這些資料的價值或影響力。


1.
訓練AI模型,不管是預訓練階段還是微調的階段,都不是儲存「人類創作的資料」,只是藉由訓練/微調的過程將這些資料的內在關聯性轉換成用大量的參數與非線性方程式來模擬。這個過程也就是美國聯邦法官William Alsup在其判決中所說的「轉化」,目的是產生更多其他結果,而非單僅以這個資料來營利。因此,訓練好的AI模型更像是一個博覽群書而頭頭是道的學者,而非將書本放在架上僅供查閱的圖書館。筆者當然相信每一個作家都不希望自己的作品被盜版賤賣,但是應該沒有不期待自己的作品被讀者細讀上千百遍的──只是現在讀這些作品的不是人類,而是機器。事實上,歐盟數位單一市場著作權指令(DSM指令)提供了文本與數據挖掘(TDM, Text and Data Mining)例外的法律框架,使特定條件下,研究機構和部分商業機構可不經授權進行資料分析與機器學習[15]。日本著作權法第30-4也允許為資訊分析而複製作品,但若訓練目的是『扒取特定創作者風格』則可能不適用該例外[16]

 

2. AI推論是反映資料間的關聯性:如果訓練AI模型不是儲存資料,那為什麼AI可以很好的回答許多問題呢?那是因為AI模型是學習這些資料的內在關聯性,特別是某些特定的提問與特定的答案之間的關係,以至於讓輸出的結果可以與輸入的提問文字之間,符合AI所學習到的關聯性。但是這些關聯性是以大量參數與非線性函數所儲存的,外界很難作有效的檢視,也可能與我們人類的理解關係不同。因此,生成式AI更像是個喜好讀書的學生而非僅有大量圖書放在架上等待搜尋的圖書館,即便常常能給我們的提問組織出不錯的回答,還是可能會對某些問題胡拚亂湊,無法保證輸出的結果都會是正確無幻覺的。

 

如果能釐清以上在訓練與推論過程中的輸入資料與輸出資料間的差異,我們就能了解為何在Anthropic的案子中,法官William Alsup認為只要Anthropic是透過合法取得的資料來訓練AI,這部分並不會因為「閱讀」這些資料的是人類讀者還是AI機器,而有不同的責任要求。反之,如果取得資料的過程不合法,那就需要賠償應有的損失。

 

但是,以AI所生成的資料來看,重點就不在於其來源(是否人類原創)還是形式(是否是標註或結構化),而是其應用上的倫理性。因為即便所用來訓練AI的資料是合法取得,也不等於其推論結果也是都合法的,也需要看是否干涉到原作者的著作權或者符合當時的法律規範或社會文化。例如前幾個月ChatGPT所推出的影像生成模型,造成「吉卜力風格」的圖案創作極為流行。但是由於「創作風格」本身並沒有著作權的問題,因此使用AI產生有此風格的作品本身並無侵權的問題(但是當然仍然有道德上或創作價值上的爭議[17])。不過如果生成的剛好是吉卜力動畫中的人物(如龍貓),那可能被認定為有法律上的侵權行為[18]

    修法新增「後製資料」的著作類型

 

若以上述所提及的三種類不同的資料使用方式(用作為訓練AI的原始資料與AI輸出的新資料)來看,在AI時代不能在僅以「創意來源」作為著作權保護的主要判斷標準,因為生成式AI在訓練資料與生成資料等方面,都可能有不同比例參雜人類與AI所共同參與的內容。兩者間的界線越來越模糊已經幾乎難以區分,實在需要有新的觀點來重新定義「資料的價值」以作適當而非過度的保護。筆者認為應該新增「後製資料」這個類別,並以下列各點略作說明。

 

1. 目前《著作權法》已經有將「著作」的定義(5),增加了根據原著而產生的「衍生著作」(6),「編輯著作」(7)與「表演著作」(7-1)。已經有法律界人士認為法源公司所作的法規沿革及附件資料比較像是「編輯體例」而非「編輯著作」,因為其目的在於出版結果的一致性與可讀性,雖然可能不同單位的編輯體例可以不同,但不等於都有等同於「著作」的創造性[19]

 

2. 隨著生成式AI的出現,除了需要大量的無標註資料作「預訓練」以外,也需要有人工標註過的(或是有編輯過而結構化的)資料作為「微調」的基礎資料。這類有標註過或是因為編輯過而結構化的資料,對於生成式AI的準確性與實用性有決定性的影響[20]。因此,筆者認為這代表資料型態應該增加一種新的類型,本文稱之為「後製產物」,而非「編輯著作」(屬於一種原創著作)。例如將內容的格式作些修改以達到結構化而讓機器可以準確分類,提升其關聯性計算的準確率或被精確搜尋的機會。但是標註這些文章本身,並不一定需要專業的技術加值,且標註的結果只是一個與原資料有關的結構化呈現,應該以「產物」來定位,而非「著作」[21]

3. 更具體來說,「編輯著作」與「後製產物」兩者都有一個共同的特色,就是有一個先前可以對照的母體著作,但是差異就在於編輯或後製的過程。筆者認為「編輯」明顯是一種創作,其重點在於編輯者藉由形式上的創新,讓讀者或觀者可以明顯辨認出編輯者的個人風格、理念並因此建立其個人性的價值或口碑。舉例來說,將同樣的原著根據不同讀者的需求來編輯成適合小學生、青少年或成人閱讀的版本,本身就需要有一定的詮釋能力,並且這往往需要由一位主要的編輯者來掌握整個理念的執行與風格的獨特性,不太容易由多位編輯者以可互相重複替代的方式完成。

 

4. 但是「後製產物」往往是一種標準化的過程,目的是讓大量的資料可以有同一種方式呈現,以方便讀者(包含機器)來擷取重點或作統計分析。也因此,後製資料往往都伴隨者「數量龐大」的特性,才能更為有效地展現其價值。因此,這類資料即便是人類作者(甚至是專家)所為,但是並非沒有可替代性。例如找一批律師來編輯修法沿革,其專業重點在於律師資格,而非哪一位特定的律師才能作到。這種對後製結果的一致性或標準性的要求,會自然削弱創作的獨特性(雖然可能不是完全沒有)。但是其應用的重點在於方便準確,而非特殊的創意,甚至在AI時代可以相當程度上被AI來學習而代替這個過程。

 

筆者認為這樣的分類應該也適合應用於「法源vs Lawsnote」的案件。該案件討論的核心標的,也就是經由法源公司聘請專業人士所標註或整理的法規沿革等資料,似乎應該屬於「後製資料」而非「編輯著作」,也因此應該可以得到較為寬鬆的使用機會。這部分以下會再進一步詳述。

 

    「後製資料」的舉例:法官見解文字標註

 

為了讓讀者可以更具體了解此處所提及的「後製產物」,筆者以目前進行中的研究為例(尚未發表)。該研究是希望蒐集整理我國過去歷年法院裁判書中的「法官見解」。這是因為裁判過程中法官對於法律的實務見解是當事人與整個社會了解判決原則,或司法判例形成的重要參考資料。但是目前各級法官的法律見解有時候並非是一致的,也可能與一般教課書上的有所出入,卻很難根據關鍵字從大量的裁判書中查詢到特定見解,也就間接形成某種不透明的情形。

 

以下為一個典型的法官見解文字(取自最高法院,110,台上,1352):「前者學理上謂為意欲主義,後者謂為容認主義,但不論其為「明知」或「預見」,皆為故意犯主觀上之認識,只是認識程度強弱有別,行為人有此認識進而有「使其發生」或「任其發生」之意,則形成犯意,前者為確定故意(直接故意),後者為不確定故意(間接故意或未必故意),但不論其為確定故意或不確定故意,不確定故意應具備構成犯罪事實的認識,與確定故意並無不同

 

因此,如果能透過AI技術來找出大量裁判書中的法官見解文字,並且將之依照法院層級、案件類型、見解類型、主要對象或法益、提出時間或甚至不同見解等等方式來區分,並作質性與量化研究,應有助於未來訴訟雙方的參考,法官撰寫裁判書的引用、法學觀念研究、司法教育、司法社會學、司法AI訓練等多方面應用。

 

為了要在龐大的裁判書中找出這些重要的見解文字,研究團隊先用一般的文字處理技術,從刑事與民事案件裁判書的「理由」段落中纖隨機挑選出數千個語意段落,經過初步篩選(去除明顯非見解的文字)後,整理出各2000筆的段落。透過與相關領域的法律學者(刑事:連孟琦,民事:陳宛妤)的合作,將法律領域研究生互相標註對照過而有差異的結果再行確認,並藉此整理出可能的判斷標準與常見類型。接著將這個極有價值(因為一般人已經不容易區別)的資料送入大型語言模型(LLM, Large language model)中來作微調(fine-tune)訓練,達到至少90%以上的準確率。最後我們以此AI模型來對尚未標註過的文本進行AI自動標註,儲存為法院見解資料庫。以106-110年的刑事案件為例,我們目前可以從約25萬筆的案件中抽取出大約120萬筆的見解文字段落。而這個過程來還需要反覆迭代確認,以提升最後的標註準確率與可信度。此處可以先用表二來呈現初步的結果供讀者參考。

 

表二:「後製產物」的例子:法官見解文字標註。

裁判書ID

段落ID

段落文字

標註結果

TCHM,108,

上訴,1113,

20191226,1

123469

所謂共同犯罪之意思,係指基於共同犯罪之認識,互相利用他之行為以遂行犯罪目的之意思;共同正犯因有此意思之聯絡,其行為在法律上應作合一的觀察而為責任之共擔

KSHM,107,

上訴,694,

20180831,1

 

65632

按刑法上之幫助犯,係對於犯罪與正犯有共同之認識,而以幫助之意思,對於正犯資以助力,而未參與實施犯罪之行為者而言,是如未參與實施犯罪構成要件之行為,且係出於幫助之意思提供助力,即屬幫助犯,而非共同正犯;即刑法上之幫助犯從屬於正犯而成立,並無獨立性,故幫助犯須對正犯之犯罪事實,具有共同認識而加以助力,始能成立

KSHM,110,

上易,42,

20210217,1

 

180618

而提起公訴之訴訟行為是否於程序上有違法律規定,原則上,固是以起訴時所存在之事項及法律規定為判斷,惟檢察官起訴後始發生之情事變更事由,致法院不能為實體審理及判決亦屬「起訴之程序違背規定

PTDM,106,,19,

20170426,1

10721

但行為後之法律有利於行為人者,適用最有利於行為人之法律,刑法第2條第1項定有明文

TPHM,108,

上訴,1236,

20191127,2

119202

於修正前,為避免發生上述罪刑不相當之情形,法院就該個案應依本解釋意旨,裁量是否加重最低本刑

 

筆者以此為例是希望說明,此類標註資料的確是需要花時間與專業來完成的,但是這個過程與一般認為的「編輯資料」不同,更著重於資料規格的一致性與使用的方便性。這樣的資料甚至也可以透過AI來協助整理這些極大量而無法透過人工完成的內容。在這樣「生產」的過程中,這些「後製產品」的價值重點應該在於後來如何應用,不管是作法學的實證研究、司法AI的訓練資料或商業用途,但似乎並不適合由筆者或合作者宣稱擁有等同於「編輯資料」的完整著作權,乃至於以刑事理由來妨礙他人的使用(假使取得合法)

 

    根據資料的應用目的來給予不同的保護

 

至此,筆者認為本文開頭提到的「法源vs Lawsnote」的案子或許可以有不同的啟發。但是此處需要先澄清的是,本案子本身並不牽涉到任何AI技術,而是資料未授權或如何取得的問題。但是Lawsnote本身作為台灣最大的法律AI應用公司來說,這個案件中的資料處理方式顯然會影響未來更多與AI應用有關的事件。一般產業的報導也認為此事會很有代表性地影響AI落地於台灣社會的進程或相關發展。以下列點說明為何

 

1. 首先,這個案件的核心事件是Lawsnote未經授權而以機器爬蟲的方式,大量重製法源公司所整理的法規沿革及附件資料,收錄於自己公司的資料庫並以此營利。法官認為這過程有兩個違反現行法律的地方:(1) 法源資訊所作的法規沿革與附件資料的確是耗費人力與付出創意的,是屬於一種「智慧財產」,應該要受到《著作權法》的保護。(2) Lawsnote使用網路爬蟲取得資料的方式,構成《刑法》359條規定的「無故取得他人電磁紀錄」而違法。相關的新聞已經有司法界許多的討論[22]

 

2. 就權利保護的範圍而言,《著作權法》所規定的著作作者,當然有權決定是否願意被AI使用(即著作權),這是毫無疑問的。但是筆者需要提醒,這類的「原創資料」在生成式AI的訓練中,主要是用於前述所未的「預訓練」階段,為的是讓模型參數可以模擬這類風格的文字或圖像影音表達。因此,基於文化保存與尊重原創的目的,讓大型語言模型或生成式AI能以此為訓練資料,可能比冷凍於圖書館、美術館或某些無法大量觸及的網頁中更為有活化的效果。而這也是「主權AI」最重要的基本概念[23]:保存自己文化中的重要文字或相關資料於生成式AI模型中,可以透過模型的許多應用來與未來社會互動,有助於未來作更多延伸發展而非因冷凍而遺忘,或者更嚴重的是,些非主流語言可能在大量主流資料所訓練的生成式AI中無法有效展現其文化表現。對此,政府或文化當局應該儘速制定合適的保護方式,讓原創作者更願意讓其作品可以成為生成式AI的預訓練資料之一,並且可以合法合理的從這些資料的提供中得到創作者應有的回饋或分潤[24]

 

3. 對於這些原創著作(包含編輯著作),筆者建議採用負面表列的方式:也就是除非作者明確拒絕被任何方式拿去訓練,否則使用於AI訓練都是合法的(除非有國安或隱私資料等疑慮)。但這個「合法」是奠基於一個商業交易,也就是可以被定價,如同其完整的著作可以出版一樣。因此將來的原創作品應該要由出版單位提供兩個費用:一個是人類讀者所需支付的購買費用,另一個是提供給科技公司或資料處理公司的來訓練AI費用。這些費用的制定也許可以透過透過政府或公共協會制定標準授權條款與合理費率,鼓勵內容供應商(出版、媒體、資料庫)與AI業者簽訂集體授權與分潤協議(如OpenAI × AP之合作)[25],以合約保障原創作者的權益與後續的分潤機制。

 

4. 相較之下,「後製產物」由於其目的就是為了方便資料的傳輸與使用,因此筆者認為其作者或所擁有的單位應該「沒有拒絕被合理使用」的權利(除非有國安或隱私資料等疑慮)。也就是說,這些後製產物完成與公開後,應該可以規定在某些時間內,只要是根據公共資料所做的標註,應該就有適當公開的準備與相關配套。例如政府可以設置公共標註資料的公開平台,制定好的費用與授權條件,可以讓任何想要使用這些資料來對其AI模型作微調或監督式學習訓練的單位可以出價購買。如果這些資料於網頁對外公開時被非法的方式下載(包括人工或使用網路爬蟲),應僅構成民事侵權損害的案件而非刑事案件等等(除非是特別敏感的資訊或甚及國安等問題)。這樣的方式也會間接鼓勵更多協助資料後製或標註的公司,願意投入資料改善的工程,不管是透過人工或AI技術,都會有助於這些資料進行再利用。

 

其實以上的建議也同時整理於表一。相較於日本最近對《著作權法》的修改[26],應仍屬保守。筆者個人認為明文准許AI使用任何資料作訓練,似乎有點過度極端而無法保障創作者的權益。但是或許將「編輯著作」與「後製產品」作區分,協助真正的資料創作者與資料標註者能夠在AI時代所需要的不同資料中可以得到應有的利益,而非感到其專業供線被無情剝奪或限制。

 

    結語:從司法案件的經驗中邁向更有效的資料治理

 

在本文中,筆者提出將「資料」依照AI模型訓練的方式,區別為「原創資料」、「標註資料」以及「生成資料」。希望藉由這些資料在來源上、結構上以及使用目的上的差異,可以更為精緻的應用於AI時代的資料治理。這三者中的「原創資料」僅用於人類所產生,而「生成資料」僅用於AI所產生,因此其資料價值、需要保護的範圍與所需要受到的法規或倫理限制式相對比較明確的。但是本文所提出的「標註資料」(也就與「法源vs Lawsnote」案中之法規沿革與附件等類似),應該是比較不容易被定義,也因此可能是造成未來AI 時代相關司法爭議的關鍵。

 

由於筆者自己有親身參與過這些人文社會領域的資料標註過程,知道從原始無結構化的書寫資料得到能用於AI訓練(或生成式AI的微調)的結構化資料實屬不易:一方面希望這些的資料能被更多人使用,但一方面又會覺得如果就這樣白白被他人使用也會覺得不捨。畢竟即使「AI公共化」,卻並絕對不等於「免費化」,因為後者往往會讓社會無法釐清價值,因而難以刺激或帶出未來的正向循環。但是筆者也不贊成非法使用標註後的資料成為一種刑事責任(除非有隱私、國安或重大惡意等事證),需要行為人接受入獄等判決執行。畢竟這對於社會健康的資料利用並沒有幫助,可能反而有害。

 

更重要的是,從「AI公共化」的角度,這類「標註資料」其實在公共領域是最為缺乏的資料類型。也就是因為我們的政府單位沒有很好的資料治理流程,以至於所開放的公共資料極度缺乏標準化或結構化,央此很難在AI領域發揮更好的價值。如果能藉著此次「法源vs Lawsnote」的案件,促進政府對於相關法制環境的改善,提升開放資料的標準化規格,讓學界或業界可以更快速使用,就可能形成良性循環:當政府或社會的資料愈來愈標準化、透明度提升,也就更容易被廣泛採用,應用於更多公共化AI的發展。同時,政府治理也不再依賴於單一領導人的個人管理風格和政策,更能根據真實且標準化的數據和科學分析,做出更明智的決策,提升整體的公共事務效能。這才是AI時代的「AI公共化」所藉由資料治理而推動改善社會的大方向。

 

如本文一開始所提到,202411月開始,網路上的AI生成文章已經開始超越人類文章,因此未來的時代中,「純粹人類作品」將會越來越稀有。從AI模型訓練的角度來看,也會有越來越多的AI公司將使用「混合資料」(hybrid data),也就是有部分是來自於AI所生成的內容,來訓練新的AI模型[27]。但是這中間的比例與訓練的方式仍有許多細節需要注意或克服,免得讓生成式AI後續的發展受到資料近親繁殖的影響而產生崩壞。在這樣的脈絡下,AI時代的資料治理可能比本文所提到的更為複雜,因為生成式AI的出現讓「原創」的概念越發模糊,而使用者也往往會作些程度不一的修改,讓後來的文章混合AI與人類的內容。如何讓這些「資料」(不管是人類產生、AI生成,還是人類與AI共同完成等等)可以有更適當的治理方式,提供合宜的著作權認定與相關的法規保護,應該是未來AI社會中需要更多管理、法律並資訊領域的學者更多努力的地方。

 



[1] 本文部分的內容最初發表於筆者的部落格,〈區別原創與後製:從AI資料著作權爭議邁向更好的資料治理〉(6/27/2025),引用網址:https://blog.udn.com/dawweiwang/182847554。後來亦曾以口頭報告的形式發表於「2025第八屆人工智慧與法律國際學術研討會」,財團法人人工智慧法律國際研究基金會(11/8/2025)

[2] Graphite. (2024, May 7). More articles are now created by AI than humans. Graphite. Retrieved October 26, 2025, from https://graphite.io/five-percent/more-articles-are-now-created-by-ai-than-humans

[3] TechNews 科技新報. (2025, 623). 美國聯邦法官裁定Anthropic未經授權使用書籍訓練AI,合理使用成立但盜版侵權仍需賠償. 取自 https://search.app/Jr41J

[4] Reuters. (2025, July 17). US authors suing Anthropic can band together in copyright class action. 取自 https://www.reuters.com/legal/government/us-authors-suing-anthropic-can-band-together-copyright-class-action-judge-rules-2025-07-17/

[5] 司法院法學資料庫。 (2025). 新北地方法院111年度智訴8號判決。取自https://judgment.judicial.gov.tw/LAW_Mobile_FJUD//FJUD/data.aspx?ty=JD&id=PCDM。司法院法學資料庫。(2025)。新北地方法院112年度智重附民字第1號刑事附帶民事判決。

[6] ETToday新聞雲. (2025, 626). 「法律版GoogleLawsnote侵權創辦人重判4年賠1億。取自 https://www.ettoday.net/news/20250626/2985066.htm

[7] 王道維,「被企業壟斷的AI 達成社會共善的AI公共化願景」,《科學月刊》(6/1/2025)。參考網址:https://blog.udn.com/dawweiwang/182720193。王道維、林昀嫺,如何用AI 創造社會共善?── AI 公共化的契機。台灣人工智慧行動網 8/14/2020)。引用網址:https://ai.iias.sinica.edu.tw/how-to-create-common-good-in-society-with-ai/

[8] 見前註。

[9] European Union. (2023, November 30). Article 10: Data and Data Governance. AI Act. 取自 https://artificialintelligenceact.eu/article/10/

[10] Cloudflare. (n.d.). What is data governance? Retrieved from https://www.cloudflare.com/learning/privacy/what-is-data-governance/

[11] DATAVERSITY. (n.d.). What Is Data Governance? Retrieved October 27, 2025, from https://www.dataversity.net/data-concepts/what-is-data-governance/

[12] AWS2025, 1016日)。什麼是資料治理?取自 https://aws.amazon.com/tw/what-is/data-governance/

[13] New York, NY: MIT Technology Review. (2023, February 15). AI model leaks private data. Retrieved October 27, 2025, from https://www.technologyreview.com/2023/02/15/1068375/ai-model-leaks-private-data/

[14] 由於人類專家標註的成本非常高,也耗時許久,所以近年來已經有更多使用AI來標註的資料,然後再用這些資料來回過去訓練其他的AI。考慮與本文的關係性不大,細節就不再說明。

[15] 許慧瑩. (201953). 歐盟《數位化單一市場著作權指令》(DSM Directive)草案有關文字與資料探勘(TDM)例外的討論. 中央研究院資訊法中心https://infolaw.iias.sinica.edu.tw/?p=672

[16] Copyright.com.au. (2024, May 27). Japan Copyright Office on AI and Copyright. Retrieved from https://www.copyright.com.au/2024/05/japan-copyright-office-document-on-ai-and-copyright/

[17] 加密城市 CryptoCity。(2025114日)。真的不忍了!代表吉卜力等36家公司的版權協會,致函要求OpenAI勿侵權。取自 https://www.cryptocity.tw/news/coda-demands-openai-stop-copyright-infringement

[18] Carter, A. E. (2025, April 16). The fine line between inspiration and infringement: Studio Ghibli vs. AI generator. Arnall Golden Gregory LLP. https://www.agg.com/news-insights/publications/the-fine-line-between-inspiration-and-infringement-studio-ghibli-vs-ai-generator/

[19] 賴文智、謝佳凌(20251015日)。法律界 Google「七法」遭重罰,網路爬蟲資料行不行?取自https://www.is-law.com/lawsnote-fined-is-web-crawling-or-scraping-legal/

[20] Append AI 2024年度綜合報告。2025520日)什麼是資料標註?。https://tw.appendata.com/blogs/data-labeling

[21] 可參考,王道維20219月),人文社會AI導論(9):文字標註與偏見處理。國立清華大學人文社會AI應用與發展研究中心。取自https://blog.udn.com/dawweiwang/167997976

[22] 例如鍾張涵(20251015日)。談Lawsnote與法源爭議 數發部:爭點非爬蟲技術,而在著作權。經濟日報。取自https://money.udn.com/money/story/7307/8873719Yourator (2025)。用爬蟲翻轉法律界卻被罰上億?你不能不知道的Lawsnote爭議。取自https://www.yourator.co/articles/1040;曾令懷。(2025627)。Lawsnote判刑4年、罰款破億:創辦人認為爭議判決在哪?對台灣新創圈帶來哪些影響?Meet創業小聚。取自https://meet.bnext.com.tw/articles/view/52459等等。

[23] 吳漢章(202594日)。各國如何以主權AI打造自主數位未來。TWAI。取自 https://tws.twcc.ai/how-nations-are-building-a-digital-future-with-sovereign-ai/

[24] 蘇漢揚。 (2025)。全球推動主權AI趨勢與挑戰。北美智財權報NAIP News。取自https://naipnews.naipo.com/1563/

[25] Associated Press. (2023, July 13). AP×OpenAI collaboration agreement announced. AP News. https://www.ap.org/media-center/press-releases/2023/ap-open-ai-agree-to-share-select-news-content-and-technology-in-new-collaboration/

[26] 可參考,「日本大膽 all in AI!無論版權,官方允許任何資料訓練人工智慧」,Inside (6/23/2023)。引用網址:https://www.inside.com.tw/article/31820-Japan-AI-copyright

[27] [劍橋研究:2026 年人類資料將被 LLM 學習殆盡,AI 恐因「哈布斯堡現象」崩壞]。(2025111日)。鏈新聞 ABMedia。取自 https://abmedia.io/ai-llm-the-curse-of-recursion TechNews. (2025, October 14). 2025 OCP 高峰會》從單一叢集邁向跨區域超級運算,Meta 重視混合資料訓練. TechNews. https://technews.tw/2025/10/15/2025-ocp-meta/

有誰推薦more
發表迴響

會員登入