AI訓練深度學習與台灣整理公共財產政策 - 蕭雄淋律師的部落格

Top

所有文章 / 目前分類：時事評論|教育文化

AI訓練深度學習與台灣整理公共財產政策

2026/05/25 17:05:43

迴響：0

推薦：10

引用0

過去台灣電子產業，包含桌上型、筆記型電腦等硬體的生產與輸出，非常發達，但是電腦軟體較進國家，顯然落後。現在台灣半導體及AI設備生產技術一樣先進，但是AI軟體一樣落後。顯然現在台灣的AI政策，與幾十年來的電子產業發展，同出一轍，硬體先進，軟體落後。於是：

我問：目前哪些國家，針對AI深度學習，而有整理公共財產供AI使用的政策？

ChatGPT回答：

目前全球已經有不少國家，開始把「公共資料（public data）」或「政府持有資料」視為國家級 AI 戰略資源，主動整理、開放、標準化，甚至建立專供生成式 AI 訓練的大型資料庫。其背後思維，已從早年的「政府資訊公開」進一步轉向「資料主權（data sovereignty）」與「主權 AI（sovereign AI）」。

大致而言，可分成五種模式：

1. 政府主導的公共資料開放

2. 國家級 AI 訓練資料庫建設

3. 公共文化資產數位化供 AI 學習

4. 官民合作的資料共享制度

5. 法律上明文允許 AI 訓練利用資料

其中以日本、法國、韓國、新加坡、歐盟、美國最具代表性。

一、日本：最完整的「AI 訓練合法化＋公共資料戰略」

（一）法律面：著作權法第30條之4

日本是全球最早明確立法允許 AI 深度學習使用著作的國家之一。

日本《著作權法》第30條之4，基本上允許：

只要不是「享受作品內容」為目的，而是資訊分析、機械學習、深度學習等利用，即可不經授權使用著作。

這使日本成為全球 AI 公司極重視的訓練基地。

相關政策主要由：

• 日本文部科学省

• 日本經濟產業省

• 日本數位廳

共同推動。

（二）公共資料戰略

日本並不只是開放資料，而是開始建立：

• 行政資料標準化

• 地理資料庫

• 醫療資料聯盟

• 國立圖書館數位典藏

• 學術論文資料平台

並與 AI 訓練整合。

日本《官民資料活用推進基本法》更明確要求：

國家應促進官民資料之機器可讀化與活用。

這已經接近「國家 AI 資料基礎建設」。

二、法國：把文化資產當 AI 國力

法國近年非常積極。

（一）Gallica 數位典藏

法國國家圖書館

長期推動：

• 古籍

• 報紙

• 文學

• 圖像

• 手稿

的大規模數位化。

其 Gallica 平台，實際上已成為法語 AI 訓練的重要來源。

（二）歐洲共同資料空間（Common European Data Spaces）

歐盟執行委員會

正在建立：

• 醫療資料空間

• 文化資料空間

• 農業資料空間

• 工業資料空間

目的就是：

避免歐洲 AI 完全依賴美國平台資料。

這是典型的「數位主權」思維。

三、韓國：政府主導 AI 學習資料建設

韓國近年政策非常積極。

主要由：

• 韓國科學技術情報通信部

• 韓國智慧資訊社會振興院（NIA）

主導。

（一）AI Hub

韓國建立大型國家 AI 訓練資料平台：

AI Hub

內容包括：

• 韓語語音

• 醫療影像

• 法律文件

• 自動駕駛資料

• 高齡照護資料

• 對話語料

許多資料由政府出資建置。

這已不只是 open data，而是：

「國家級 AI 訓練原料供應系統」。

（二）生成式 AI 指引

韓國政府 2024 年後更進一步討論：

• AI 訓練合理利用

• 公共資料再利用

• AI 學習資料合法化

方向與日本愈來愈接近。

四、新加坡：國家直接建立 AI Data Infrastructure

新加坡

是亞洲最早把 AI 視為國家治理工具的國家之一。

由：

• 新加坡智慧國家與數位政府署

• 新加坡資訊通信媒體發展局

推動。

特色

新加坡不是單純開放資料，而是：

• 政府統一資料標準

• 建立可信資料交換架構

• AI Sandbox

• 國家級資料治理

其 Smart Nation 計畫，實際上已形成：

「政府即 AI 資料平台」。

五、美國：聯邦較鬆散，但科技公司實力最強

美國

聯邦政府不像日本那樣集中立法。

但：

• NASA

• NIH

• 國會圖書館

• 美國政府 open data

長期提供大量公共資料。

例如：

• 氣象

• 醫療

• 科學

• 衛星影像

• 法律判決

都成為 AI 訓練的重要來源。

美國模式的特色

不是「中央規劃」。

而是：

公共資料＋私人平台＋市場競爭。

真正主導 AI 訓練資料的，其實是：

• OpenAI

• Google DeepMind

• Meta AI

• Anthropic

等公司。

六、中國：最強的「國家主導資料模式」

中國

近年其實已把：

• 政府資料

• 國企資料

• 城市監控資料

• 語言資料

視為 AI 戰略資產。

特徵

中國模式是：

• 強國家控制

• 大規模資料集中

• 政府與大型平台整合

例如：

• 百度文心

• 阿里通義

• 訊飛星火

背後都有龐大中文語料與公共治理資料支撐。

七、歐盟：從「開放資料」走向「資料主權」

歐盟現在最重要的方向是：

《Data Act》

《Data Governance Act》

《AI Act》

其核心思想是：

歐洲不能只有隱私保護，而沒有自己的 AI 訓練資料體系。

因此歐盟近年強調：

• 公共部門資料再利用

• 高價值資料集（High-value datasets）

• 機器可讀格式

• 跨境資料空間

八、台灣目前的問題

台灣其實仍停留在：

「政府資訊公開」思維。

尚未真正進入：

「AI 訓練資料國家戰略」。

目前缺點包括：

1. 缺乏 AI 訓練利用明文規範

不像日本第30條之4。

2. 公共資料碎片化

各部會：

• 格式不同

• API 不統一

• 品質不一

• 難機器讀取

3. 缺乏國家級 AI 資料平台

尚無：

• 台灣語料庫

• 法律語料庫

• 公共文化語料庫

• 政府 AI 訓練平台

的整體戰略。

4. 缺乏「主權 AI」概念

目前《促進資料創新利用發展條例草案》的討論，多半仍偏向：

• 開放資料

• 民間利用

• 行政效率

而非：

「建立台灣自己的 AI 基礎燃料」。

九、全球趨勢其實已非常明顯

未來 AI 國力競爭，很可能不只是：

• GPU

• 半導體

• 模型技術

更是：

「誰掌握可合法、大規模、高品質的訓練資料」

因此現在各國開始出現：

• 資料主權

• 國家語料庫

• 公共資料 AI 化

• 文化典藏 AI 化

• 國家級 AI Data Infrastructure

的政策。

而日本與韓國，已是亞洲走得最快的兩個國家之一。

回應

全站分類：時事評論｜教育文化

自訂分類：一般著作權文章

上一則：為什麼台灣只能發展AI硬體，不能發展主權AI？
下一則：「促進資料創新利用發展條例草案」的若千意見

你可能會有興趣的文章：

全世界五大生成式AI公司，在深度學習中文資料過程中，是否曾經對台灣的著作權人給付過使用費？
世界前五個使用者最廣的生成式性AI，在AI深度學習過程有無對著作權人付使用費？
為什麼台灣只能發展AI硬體，不能發展主權AI？
全球華人藝術網與藝術家間訴訟的簡單經過
有關全球華人藝術網事件北辰著作權事務所的感謝
談最近風行的「沒出息」歌曲的著作權問題

限會員,要發表迴響,請先登入

	作家：蕭雄淋律師