Contents ...
udn網路城邦
區別原創與後製:從AI資料著作權爭議邁向更好的資料治理
2025/06/27 16:50
瀏覽2,405
迴響0
推薦0
引用0

區別原創與後製:從AI資料著作權爭議邁向更好的資料治理

 

王道維

清華大學物理系

清華大學人文社會AI應用與發展研究中心

 

這兩天在台美兩地各有一個受到矚目,關於資料(AI所需要)與著作權之間的判決出爐。這對於未來AI應用的落地發展有相當重要的影響。(兩個案子的新聞摘要與連結如後)

由於筆者目前在AI應用相關領域的研究,剛好同時需要蒐集大量資料(例如司法院的裁判書,或是社群媒體的文章),也同時與相關領域學者合作進行相當數量(多半上千篇)的人工標註,所以對這兩個同一天出現,但結果似乎相反的判決,感到相當複雜的心情。而這也是筆者在「AI公共化」[1]中所提到政府或司法部門需要積極關切介入的部分:包括適當的修改法律來增加資料保護,亦可同時推動AI發展,兩者不是矛盾反而是相輔相成的。

若要落地到目前這兩個具體的案例,則先需要提供對這兩個案子的差異有些了解。筆者於其後再提供個人的作法建議供討論參考。但筆者畢竟不是法律或著作權的專業,若有不足之處還請各方先進指教。

 

    澄清易誤解之處


1. AI的訓練(training)與推論(inference)是不同的過程,前者需要大量的資料來訓練模型會說人類的語言,後者才是從模型產出特定的文字。Anthropic的案子主要是說可以使用公開的資料來訓練,並不等於其推論(也就是產出)的成品也是都合法的。後者需要看是否干涉到原作者的著作權。例如前幾個月ChatGPT所推出的影像生成,因此風行的「吉卜力風格」。此判決即認為用吉卜力的作品來訓練是沒有問題的,產生有此風格的作品也是ok的,但是如果生成的剛好是吉卜力動畫中的人物(如龍貓),那就有侵權。

2. Lawsnote與法源的案子本身並不牽涉到AI,而是資料授權或使用本身的問題(主要是法規內容、法規附件和法規沿革資料)。雖然這些法規資料本身沒有著作權的問題,但是法源公司有經過人工的標註(其實是一些格式的修改補充),卻被Lawsnote直接取用,甚至營利。問題的癥結點在於,這種程度的加工並沒有提供創新的內容(雖然的確是耗費人力的),是否能屬於一種「著作」。目前地院的裁定對此是持正面的肯定。

    區別著作與後製,回歸市場交易


在以上的基礎下,筆者個人認為兩者都可以藉由修改一些法規,區別出保護著作與保護後製的不同價值目的,用市場交易的方式來達到平衡資料提供者的權益與資料使用者的需求。

1. 目前《著作權法》已經有將「著作」的定義(第5條),增加了根據原著而產生的「衍生著作」(第6條),「編輯著作」(第7條)與「表演著作」(第7-1條)。但是因應AI與相關標註需求的出現,可能需要新增一種「後製產物」。例如將內容的格式作些修改已達到標準化或方便機器閱讀,提升利用率,本身並不需要特定專業技術的加值,應該以「產物」來定位,而非「著作」。畢竟《著作權法》所要保護的著作是為了保存人類的「原創」價值,但是「後製」只是為了增進利用的方便性,特別是給機器AI使用,屬於不同的目的或法益。

2. 《著作權法》所規定的著作作者,當然有權力決定是否願意被AI使用(即著作權)。但是也正是基於文化保存與尊重原創的目的,讓大型語言模型或生成式AI能以此為訓練資料,可能比冷凍於圖書館、美術館或網頁中更為有活化的效果。因此,對於這些著作,筆者建議用負面表列的方式:也就是除非作者明確拒絕被任何方式拿去訓練,否則只要是合法取得的(非盜版或網路上可公開下載的),後來使用於AI訓練都是合法的(除非有國安或隱私資料等疑慮)。但當然,這個「合法」並不是免費,而是奠基於商業交易,也就是可以被定價,如同其完整的著作可以出版賣錢一樣。因此將來的作品應該會有兩個價錢:一個是第一手讀者所支付的出版相關費用,另一個是賣給科技公司或資料公司的訓練費用。這些費用的制定也許可以透過出版社或圖書館等來與應用這些資料的科技公司討論協商,簽約保障。

 

3. 相較之下,「後製產物」的作者或擁有者,由於其目的就是為了方便原始資料的傳輸與使用,不是為了增加後製者的創意,因此筆者認為只要是合法取得的(非盜版或網路上可公開下載的)應該「沒有權力拒絕被使用」(除非有國安或隱私資料等疑慮)。所以這些後製產物一開始就要制定好可以討論的價碼,準備讓社會更多人(甚至其競爭對手)可以出價購買。這樣的方式也會間接鼓勵更多協助資料後製或標註的公司,願意投入資料改善的工程,不管是透過人工或AI技術,都會有助於這些有價值的資料進行再利用。當然,如何讓這種沒有權力拒絕被使用卻又可以定價的方式可以執行,就要看立法的技術。筆者認為類似藥品研發在某個規定的時限以後可以開放學名藥(仿製藥),應該是一個可以參考的方向。

 

其實以上的建議,相較於日本最近對《著作權法》的修改[2],應還算保守。畢竟明文准許AI使用任何資料訓練,本身似乎有點太快,對原作者也失去尊重。或許可以做更精緻的區分且有不同的保護範圍,協助真正的資料創作者與資料善用者能夠互蒙其利,而非感到其專業能力被剝奪或限制。

 

    促進資料治理


也正是筆者自己有參與過這些資料標註的過程,知道得到好用的資料實屬不易:一方面希望自己的資料能被更多人使用,但一方面又會覺得如果白白被他人使用也有些遲疑。我們都知道,「公共化」並不等於「免費化」,因為後者往往會讓人更不清楚其價值,因而無法刺激未來的產出,帶來正向的循環。但是筆者也不太贊成將這樣的事情變成刑事責任(除非有隱私、國安或重大惡意等事證),需要接受入獄等判決執行。畢竟這對於社會健康的資料利用並沒有幫助,不符合比例原則,可能反而有害。

 

更重要的是,目前原始的公共資料缺乏標準化,很難在AI領域發揮足夠價值。如果能藉著此次事件,促進政府對於相關法制環境的改善,提升開放資料的標準化規格,讓學界或業界可以更快速使用,就能形成良性循環:政府或社會的資料愈來愈標準化、透明度提升,也就更容易被廣泛採用。同時,政府治理效率也會增加,不再依賴於單一領導人的個人管理風格,更能根據真實且標準化的數據和科學分析,做出更明智的決策,提升整體的公共事務效能。這才是AI時代的「AI公共化」藉由資料治理所推動的社會改革大方向。

 

 

[1]王道維,「被企業壟斷的AI 達成社會共善的AI公共化願景」,《科學月刊》(6/1/2025)。參考網址:https://blog.udn.com/dawweiwang/182720193

[2]可參考,「日本大膽 all in AI!無論版權,官方允許任何資料訓練人工智慧」,Inside (6/23/2023)。引用網址:https://www.inside.com.tw/article/31820-Japan-AI-copyright


附錄:相關新聞資訊摘要


1. 美國聯邦法官 23 日晚間裁定,新創公司 Anthropic 未經授權使用書籍作品訓練 AI 系統,在美國著作權法下屬於合法行為,成為美國第一宗針對生成式 AI 情境下合理使用的司法判決。但同時 Anthropic 複製盜版書籍,已構成侵害作家著作權的行為,法官預計 12 月裁定賠償金額。

資料來源:TechNews 科技新報
https://search.app/Jr41J

2. 國內法學資料庫業者法源資訊公司指控七法公司(Lawsnote)透過爬蟲程式非法抓取其資料庫內容,用於商業營利,侵害著作權。新北地院日前宣判,七法公司共同創辦人郭榮彥及謝復雅分別被判有期徒刑四年及二年,並與七法公司共同連帶賠償法源公司高達1545萬餘元,在國內外同類案件中極為罕見。

資料來源:ETToday

https://www.ettoday.net/news/20250626/2985066.htm  

新北地院刑事判決全文:

https://judgment.judicial.gov.tw/LAW_Mobile_FJUD//FJUD/data.aspx?ty=JD&id=PCDM,111%2c%e6%99%ba%e8%a8%b4%2c8%2c20250624%2c2  

新北地院民事判決全文:

https://judgment.judicial.gov.tw/LAW_Mobile_FJUD//FJUD/data.aspx?ty=JD&id=PCDM%2C112%2C%E6%99%BA%E9%87%8D%E9%99%84%E6%B0%91%2C1%2C20250624%2C2&fbclid=IwQ0xDSwLMzE1leHRuA2FlbQIxMQABHgzdY6X_ZEwbaZJ4JlMhXWlDMfrBcuTiFxopRfAM3jw4OIGZxSn6HbtUOBhl_aem_kAj32Ihvc0kb5vUoLUzPAw

發表迴響

會員登入