世界前五個使用者最廣的生成式性AI，在AI深度學習過程有無對著作權人付使用費？ - 蕭雄淋律師的部落格

Top

所有文章 / 目前分類：時事評論|教育文化

世界前五個使用者最廣的生成式性AI，在AI深度學習過程有無對著作權人付使用費？

2026/05/29 15:16:17

迴響：0

推薦：11

引用0

我問ChatGPT：

世界前五大使用者最多的生成式AI。在深度學習過程，使用他人大量著作而學習訓練，有沒有對著作權人付過使用費？各花多少錢？

ChatGPT回答：

簡單說，目前全球主要生成式 AI 公司，在「深度學習訓練」過程中：

大多數早期都沒有普遍、全面地向著作權人付費。

而是：

• 先大量抓取（scraping）網路資料、

• 使用公開網站、

• 使用數位圖書、

• 使用新聞、

• 使用論壇、

• 使用 GitHub 程式碼、

• 使用圖片資料庫、

• 有時甚至涉及盜版資料庫，

之後因為大量訴訟與政治壓力，近兩年才開始陸續簽授權契約、支付部分費用。

但至今：

「真正完整依法取得授權」的 AI，幾乎不存在。

這也是目前全世界 AI 著作權爭議最大的核心。

一、OpenAI（ChatGPT）

OpenAI

早期情況

OpenAI 早期訓練 GPT-3、GPT-4 時，普遍認為大量使用：

• 網頁抓取資料

• 書籍資料庫

• Wikipedia

• Reddit

• GitHub

• 新聞網站

其中部分內容可能受著作權保護。

《紐約時報》、作家、程式設計師都曾提告。

有沒有付費？

有，但很晚才開始。

近兩年 OpenAI 才開始大量簽：

• 新聞媒體授權

• 出版商授權

• Reddit 授權

例如：

• News Corp

• Financial Times

• Axel Springer

• Reddit

等。

花多少錢？

大部分金額未公開。

目前公開資訊推估：

類型金額

Reddit 授權據傳每年約 6000 萬美元

出版商授權單案數百萬～數千萬美元

全部內容授權總額可能數十億美元級

但：

相較於實際使用的著作數量，仍只是很小一部分。

目前沒有任何證據顯示：

OpenAI 曾對「所有被訓練的作者」逐一付費。

二、Google（Gemini）

Google

Google 情況更特殊。

因為 Google 本來就：

• 擁有全球最大搜尋引擎

• 長年爬取全網

• 建立龐大索引資料庫

因此 Google 認為：

AI 訓練是搜尋索引與資料分析的延伸。

有沒有付費？

部分有，部分沒有。

Google 現在有與新聞媒體簽約。

但 Google 的立場是：

願意付「內容存取費」，不願承認「訓練本身必須付費」。

這是目前歐洲與新聞業爭議很大的地方。

花多少錢？

未公開。

目前推估：

• 數億美元等級可能有

• 但遠低於其 AI 基礎建設投資

Google 每年花在 GPU、資料中心的金額，

遠超過內容授權費。

三、Anthropic（Claude）

Anthropic

Anthropic 是目前：

著作權爭議最嚴重、也最具代表性的案例。

發生了什麼？

法院文件顯示：

Anthropic 曾下載數百萬本盜版電子書，

包括：

• LibGen

• Pirate Library Mirror

• Books3

等資料庫。

甚至還：

• 買實體書

• 拆書掃描

• 數位化後銷毀

作為 AI 訓練資料。

有沒有付費？

早期沒有。

之後遭大規模訴訟。

2025 年達成：

美國史上最大 AI 著作權和解案。

花多少錢？

約 15 億美元。

平均：

• 每本書約賠償 3000 美元左右。

這是目前唯一：

已公開、具體、巨額支付的 AI 訓練著作權案例。

但 Anthropic 仍主張：

AI 訓練本身屬於 fair use（合理使用）。

而美國部分法院，也開始接受此論點。

四、Microsoft（Copilot）

Microsoft

Microsoft 本身是：

• OpenAI 最大投資者

• GitHub 擁有者

因此其 AI 爭議：

主要集中在：

• GitHub Copilot

• 開源程式碼訓練

有沒有付費？

大部分沒有。

大量開源程式被用於訓練，

但許多作者認為：

• AI 已超出原授權目的

• 未遵守 GPL 等條款

因此有集體訴訟。

花多少錢？

目前：

• 幾乎沒有公開大規模賠償金額

• 也未建立普遍分潤制度

但 Microsoft 已開始與企業資料供應商合作。

五、Meta（Meta AI / Llama）

Meta Platforms

Meta 也是被批評最重者之一。

法院文件與媒體報導顯示：

Meta 曾使用：

• LibGen

• 大量網路抓取資料

• 未授權書籍

作為 Llama 訓練資料。

有沒有付費？

目前公開資訊顯示：

早期幾乎沒有。

之後才開始有限度授權。

但：

Meta 至今仍面臨大量作者集體訴訟。

六、目前全球真正的核心爭議

其實現在全世界真正爭議，不只是：

「有沒有付錢？」

而是：

「AI 訓練到底算不算著作權侵害？」

目前主要有三派：

立場主張

美國科技公司屬 fair use

歐盟部分學者屬 TDM（文字資料探勘）例外

作者／出版業應全面授權付費

七、真正的現實：AI 公司花最多的，其實不是著作權費

目前 AI 公司最大支出其實是：

項目金額

GPU 天文數字

資料中心天文數字

電力天文數字

著作權授權相對很少

例如 Anthropic 光租用資料中心，

一年就可能高達：

150 億美元。

反而：

• 作者授權費

• 出版商費用

目前占 AI 成本比例仍很低。

八、所以您長期關心的核心問題，其實正是：

您過去一直研究的：

• 日本著作權法第30條之4

• AI 深度學習合理使用

• 主權 AI

• 公共資料供 AI 使用

其實正是：

「人類文明知識是否可以被 AI 無償吸收？」

這已經是：

• 美國

• 歐盟

• 日本

• 韓國

• 中國

目前最激烈的著作權戰場之一。

回應

全站分類：時事評論｜教育文化

自訂分類：一般著作權文章

上一則：全世界五大生成式AI公司，在深度學習中文資料過程中，是否曾經對台灣的著作權人給付過使用費？
下一則：為什麼台灣只能發展AI硬體，不能發展主權AI？

你可能會有興趣的文章：

為什麼台灣只能發展AI硬體，不能發展主權AI？
AI訓練深度學習與台灣整理公共財產政策
全球華人藝術網與藝術家間訴訟的簡單經過
談最近風行的「沒出息」歌曲的著作權問題
「促進資料創新利用發展條例草案」的若千意見
台灣發展主權AI，文化部及相關政府機關宜全面整理公共財產著作

限會員,要發表迴響,請先登入

	作家：蕭雄淋律師