精選
什麼是強化式學習
2026/05/30 09:35
瀏覽15
迴響0
推薦0
引用0
想像你正走進一座 奇幻冒險樂園,這裡就是強化式學習的世界。為了讓你更容易「看到」它,我用一個完整的圖像化比喻帶你走一趟。
🧭 動作:選擇下一步往哪走
在每個岔路口,冒險者都要做出一個「動作(action)」: 往左、往右、跳躍、攻擊、躲避…… 每個選擇都會帶來不同結果。
⭐ 獎勵:迷宮給的提示
迷宮會用「獎勵(reward)」來告訴冒險者:
- 找到寶箱:+10
- 撞到牆:-5
- 掉進陷阱:-20
- 成功抵達出口:+100
這些獎勵就像迷宮在悄悄說:「嘿,這方向不錯」或「別再這樣走了」。
🔁 探索 vs. 利用:走熟路還是冒險?
冒險者有兩種心情:
- 探索:試試沒走過的路,也許會找到更快的出口
- 利用:走已知最安全、最穩定的路
強化式學習的精髓,就是在這兩者之間找到平衡。
🧠 策略:冒險者的地圖逐漸成形
經過無數次闖關、失敗、重來,冒險者會慢慢畫出一張「心智地圖」—— 這就是 策略(policy):在每個狀態下,該做什麼動作最能累積最多獎勵。
🏆 最後:冒險者變成迷宮大師
當策略成熟後,冒險者不再亂闖,而是能:
一眼看出哪條路最安全
- 避開陷阱
- 最快找到寶藏
- 最終穩定抵達出口
這就是強化式學習的精神: 透過不斷試錯,從環境回饋中學會最好的行動方式。
你可能會有興趣的文章:

