AI訓練深度學習與台灣整理公共財產政策 - 蕭雄淋律師的部落格 - udn部落格
蕭雄淋律師的部落格
作家:蕭雄淋律師
文章分類
    Top
    AI訓練深度學習與台灣整理公共財產政策
    2026/05/25 17:05:43
    瀏覽:612
    迴響:0
    推薦:10
    引用0
    過去台灣電子產業,包含桌上型、筆記型電腦等硬體的生產與輸出,非常發達,但是電腦軟體較進國家,顯然落後。現在台灣半導體及AI設備生產技術一樣先進,但是AI軟體一樣落後。顯然現在台灣的AI政策,與幾十年來的電子產業發展,同出一轍,硬體先進,軟體落後。於是:

    我問:目前哪些國家,針對AI深度學習,而有整理公共財產供AI使用的政策?

    ChatGPT回答:

    目前全球已經有不少國家,開始把「公共資料(public data)」或「政府持有資料」視為國家級 AI 戰略資源,主動整理、開放、標準化,甚至建立專供生成式 AI 訓練的大型資料庫。其背後思維,已從早年的「政府資訊公開」進一步轉向「資料主權(data sovereignty)」與「主權 AI(sovereign AI)」。

    大致而言,可分成五種模式:

    1. 政府主導的公共資料開放 

    2. 國家級 AI 訓練資料庫建設 

    3. 公共文化資產數位化供 AI 學習 

    4. 官民合作的資料共享制度 

    5. 法律上明文允許 AI 訓練利用資料 

    其中以日本、法國、韓國、新加坡、歐盟、美國最具代表性。

    一、日本:最完整的「AI 訓練合法化+公共資料戰略」

    (一)法律面:著作權法第30條之4

    日本是全球最早明確立法允許 AI 深度學習使用著作的國家之一。

    日本《著作權法》第30條之4,基本上允許:

    只要不是「享受作品內容」為目的,而是資訊分析、機械學習、深度學習等利用,即可不經授權使用著作。

    這使日本成為全球 AI 公司極重視的訓練基地。

    相關政策主要由:

    • 日本文部科学省 

    • 日本經濟產業省 

    • 日本數位廳 

    共同推動。

    (二)公共資料戰略

    日本並不只是開放資料,而是開始建立:

    • 行政資料標準化 

    • 地理資料庫 

    • 醫療資料聯盟 

    • 國立圖書館數位典藏 

    • 學術論文資料平台 

    並與 AI 訓練整合。

    日本《官民資料活用推進基本法》更明確要求:

    國家應促進官民資料之機器可讀化與活用。

    這已經接近「國家 AI 資料基礎建設」。

    二、法國:把文化資產當 AI 國力

    法國近年非常積極。

    (一)Gallica 數位典藏

    法國國家圖書館

    長期推動:

    • 古籍 

    • 報紙 

    • 文學 

    • 圖像 

    • 手稿 

    的大規模數位化。

    其 Gallica 平台,實際上已成為法語 AI 訓練的重要來源。

    (二)歐洲共同資料空間(Common European Data Spaces)

    歐盟執行委員會

    正在建立:

    • 醫療資料空間 

    • 文化資料空間 

    • 農業資料空間 

    • 工業資料空間 

    目的就是:

    避免歐洲 AI 完全依賴美國平台資料。

    這是典型的「數位主權」思維。

    三、韓國:政府主導 AI 學習資料建設

    韓國近年政策非常積極。

    主要由:

    • 韓國科學技術情報通信部 

    • 韓國智慧資訊社會振興院(NIA) 

    主導。

    (一)AI Hub

    韓國建立大型國家 AI 訓練資料平台:

    AI Hub

    內容包括:

    • 韓語語音 

    • 醫療影像 

    • 法律文件 

    • 自動駕駛資料 

    • 高齡照護資料 

    • 對話語料 

    許多資料由政府出資建置。

    這已不只是 open data,而是:

    「國家級 AI 訓練原料供應系統」。

    (二)生成式 AI 指引

    韓國政府 2024 年後更進一步討論:

    • AI 訓練合理利用 

    • 公共資料再利用 

    • AI 學習資料合法化 

    方向與日本愈來愈接近。

    四、新加坡:國家直接建立 AI Data Infrastructure

    新加坡

    是亞洲最早把 AI 視為國家治理工具的國家之一。

    由:

    • 新加坡智慧國家與數位政府署 

    • 新加坡資訊通信媒體發展局 

    推動。

    特色

    新加坡不是單純開放資料,而是:

    • 政府統一資料標準 

    • 建立可信資料交換架構 

    • AI Sandbox 

    • 國家級資料治理 

    其 Smart Nation 計畫,實際上已形成:

    「政府即 AI 資料平台」。

    五、美國:聯邦較鬆散,但科技公司實力最強

    美國

    聯邦政府不像日本那樣集中立法。

    但:

    • NASA 

    • NIH 

    • 國會圖書館 

    • 美國政府 open data 

    長期提供大量公共資料。

    例如:

    • 氣象 

    • 醫療 

    • 科學 

    • 衛星影像 

    • 法律判決 

    都成為 AI 訓練的重要來源。

    美國模式的特色

    不是「中央規劃」。

    而是:

    公共資料+私人平台+市場競爭。

    真正主導 AI 訓練資料的,其實是:

    • OpenAI 

    • Google DeepMind 

    • Meta AI 

    • Anthropic 

    等公司。

    六、中國:最強的「國家主導資料模式」

    中國

    近年其實已把:

    • 政府資料 

    • 國企資料 

    • 城市監控資料 

    • 語言資料 

    視為 AI 戰略資產。

    特徵

    中國模式是:

    • 強國家控制 

    • 大規模資料集中 

    • 政府與大型平台整合 

    例如:

    • 百度文心 

    • 阿里通義 

    • 訊飛星火 

    背後都有龐大中文語料與公共治理資料支撐。

    七、歐盟:從「開放資料」走向「資料主權」

    歐盟現在最重要的方向是:

    《Data Act》

    《Data Governance Act》

    《AI Act》

    其核心思想是:

    歐洲不能只有隱私保護,而沒有自己的 AI 訓練資料體系。

    因此歐盟近年強調:

    • 公共部門資料再利用 

    • 高價值資料集(High-value datasets) 

    • 機器可讀格式 

    • 跨境資料空間

    八、台灣目前的問題

    台灣其實仍停留在:

    「政府資訊公開」思維。

    尚未真正進入:

    「AI 訓練資料國家戰略」。

    目前缺點包括:

    1. 缺乏 AI 訓練利用明文規範

    不像日本第30條之4。

    2. 公共資料碎片化

    各部會:

    • 格式不同 

    • API 不統一 

    • 品質不一 

    • 難機器讀取

    3. 缺乏國家級 AI 資料平台

    尚無:

    • 台灣語料庫 

    • 法律語料庫 

    • 公共文化語料庫 

    • 政府 AI 訓練平台 

    的整體戰略。

    4. 缺乏「主權 AI」概念

    目前《促進資料創新利用發展條例草案》的討論,多半仍偏向:

    • 開放資料 

    • 民間利用 

    • 行政效率 

    而非:

    「建立台灣自己的 AI 基礎燃料」。

    九、全球趨勢其實已非常明顯

    未來 AI 國力競爭,很可能不只是:

    • GPU 

    • 半導體 

    • 模型技術 

    更是:

    「誰掌握可合法、大規模、高品質的訓練資料」

    因此現在各國開始出現:

    • 資料主權 

    • 國家語料庫 

    • 公共資料 AI 化 

    • 文化典藏 AI 化 

    • 國家級 AI Data Infrastructure 

    的政策。

    而日本與韓國,已是亞洲走得最快的兩個國家之一。
    回應

    限會員,要發表迴響,請先登入