Contents ...
udn網路城邦
AI訓練深度學習與台灣整理公共財產政策
2026/05/25 17:05
瀏覽29
迴響0
推薦0
引用0
過去台灣電子產業,包含桌上型、筆記型電腦等硬體的生產與輸出,非常發達,但是電腦軟體較進國家,顯然落後。現在台灣半導體及AI設備生產技術一樣先進,但是AI軟體一樣落後。顯然現在台灣的AI政策,與幾十年來的電子產業發展,同出一轍,硬體先進,軟體落後。於是:

我問:目前哪些國家,針對AI深度學習,而有整理公共財產供AI使用的政策?

ChatGPT回答:

目前全球已經有不少國家,開始把「公共資料(public data)」或「政府持有資料」視為國家級 AI 戰略資源,主動整理、開放、標準化,甚至建立專供生成式 AI 訓練的大型資料庫。其背後思維,已從早年的「政府資訊公開」進一步轉向「資料主權(data sovereignty)」與「主權 AI(sovereign AI)」。

大致而言,可分成五種模式:

1. 政府主導的公共資料開放 

2. 國家級 AI 訓練資料庫建設 

3. 公共文化資產數位化供 AI 學習 

4. 官民合作的資料共享制度 

5. 法律上明文允許 AI 訓練利用資料 

其中以日本、法國、韓國、新加坡、歐盟、美國最具代表性。

一、日本:最完整的「AI 訓練合法化+公共資料戰略」

(一)法律面:著作權法第30條之4

日本是全球最早明確立法允許 AI 深度學習使用著作的國家之一。

日本《著作權法》第30條之4,基本上允許:

只要不是「享受作品內容」為目的,而是資訊分析、機械學習、深度學習等利用,即可不經授權使用著作。

這使日本成為全球 AI 公司極重視的訓練基地。

相關政策主要由:

• 日本文部科学省 

• 日本經濟產業省 

• 日本數位廳 

共同推動。

(二)公共資料戰略

日本並不只是開放資料,而是開始建立:

• 行政資料標準化 

• 地理資料庫 

• 醫療資料聯盟 

• 國立圖書館數位典藏 

• 學術論文資料平台 

並與 AI 訓練整合。

日本《官民資料活用推進基本法》更明確要求:

國家應促進官民資料之機器可讀化與活用。

這已經接近「國家 AI 資料基礎建設」。

二、法國:把文化資產當 AI 國力

法國近年非常積極。

(一)Gallica 數位典藏

法國國家圖書館

長期推動:

• 古籍 

• 報紙 

• 文學 

• 圖像 

• 手稿 

的大規模數位化。

其 Gallica 平台,實際上已成為法語 AI 訓練的重要來源。

(二)歐洲共同資料空間(Common European Data Spaces)

歐盟執行委員會

正在建立:

• 醫療資料空間 

• 文化資料空間 

• 農業資料空間 

• 工業資料空間 

目的就是:

避免歐洲 AI 完全依賴美國平台資料。

這是典型的「數位主權」思維。

三、韓國:政府主導 AI 學習資料建設

韓國近年政策非常積極。

主要由:

• 韓國科學技術情報通信部 

• 韓國智慧資訊社會振興院(NIA) 

主導。

(一)AI Hub

韓國建立大型國家 AI 訓練資料平台:

AI Hub

內容包括:

• 韓語語音 

• 醫療影像 

• 法律文件 

• 自動駕駛資料 

• 高齡照護資料 

• 對話語料 

許多資料由政府出資建置。

這已不只是 open data,而是:

「國家級 AI 訓練原料供應系統」。

(二)生成式 AI 指引

韓國政府 2024 年後更進一步討論:

• AI 訓練合理利用 

• 公共資料再利用 

• AI 學習資料合法化 

方向與日本愈來愈接近。

四、新加坡:國家直接建立 AI Data Infrastructure

新加坡

是亞洲最早把 AI 視為國家治理工具的國家之一。

由:

• 新加坡智慧國家與數位政府署 

• 新加坡資訊通信媒體發展局 

推動。

特色

新加坡不是單純開放資料,而是:

• 政府統一資料標準 

• 建立可信資料交換架構 

• AI Sandbox 

• 國家級資料治理 

其 Smart Nation 計畫,實際上已形成:

「政府即 AI 資料平台」。

五、美國:聯邦較鬆散,但科技公司實力最強

美國

聯邦政府不像日本那樣集中立法。

但:

• NASA 

• NIH 

• 國會圖書館 

• 美國政府 open data 

長期提供大量公共資料。

例如:

• 氣象 

• 醫療 

• 科學 

• 衛星影像 

• 法律判決 

都成為 AI 訓練的重要來源。

美國模式的特色

不是「中央規劃」。

而是:

公共資料+私人平台+市場競爭。

真正主導 AI 訓練資料的,其實是:

• OpenAI 

• Google DeepMind 

• Meta AI 

• Anthropic 

等公司。

六、中國:最強的「國家主導資料模式」

中國

近年其實已把:

• 政府資料 

• 國企資料 

• 城市監控資料 

• 語言資料 

視為 AI 戰略資產。

特徵

中國模式是:

• 強國家控制 

• 大規模資料集中 

• 政府與大型平台整合 

例如:

• 百度文心 

• 阿里通義 

• 訊飛星火 

背後都有龐大中文語料與公共治理資料支撐。

七、歐盟:從「開放資料」走向「資料主權」

歐盟現在最重要的方向是:

《Data Act》

《Data Governance Act》

《AI Act》

其核心思想是:

歐洲不能只有隱私保護,而沒有自己的 AI 訓練資料體系。

因此歐盟近年強調:

• 公共部門資料再利用 

• 高價值資料集(High-value datasets) 

• 機器可讀格式 

• 跨境資料空間

八、台灣目前的問題

台灣其實仍停留在:

「政府資訊公開」思維。

尚未真正進入:

「AI 訓練資料國家戰略」。

目前缺點包括:

1. 缺乏 AI 訓練利用明文規範

不像日本第30條之4。

2. 公共資料碎片化

各部會:

• 格式不同 

• API 不統一 

• 品質不一 

• 難機器讀取

3. 缺乏國家級 AI 資料平台

尚無:

• 台灣語料庫 

• 法律語料庫 

• 公共文化語料庫 

• 政府 AI 訓練平台 

的整體戰略。

4. 缺乏「主權 AI」概念

目前《促進資料創新利用發展條例草案》的討論,多半仍偏向:

• 開放資料 

• 民間利用 

• 行政效率 

而非:

「建立台灣自己的 AI 基礎燃料」。

九、全球趨勢其實已非常明顯

未來 AI 國力競爭,很可能不只是:

• GPU 

• 半導體 

• 模型技術 

更是:

「誰掌握可合法、大規模、高品質的訓練資料」

因此現在各國開始出現:

• 資料主權 

• 國家語料庫 

• 公共資料 AI 化 

• 文化典藏 AI 化 

• 國家級 AI Data Infrastructure 

的政策。

而日本與韓國,已是亞洲走得最快的兩個國家之一。

限會員,要發表迴響,請先登入