讀書的時候我是理工科的嘛!所以老師們總是會諄諄告誡:「讀書一定要多理解,不能靠死背!」但很詭異的,現在大家風靡崇拜的熱門核心AI技術機器學習的本質就是「死背」!用大量資料歸納規律做為AI判斷的依據!跟讀書時靠死背應付考試的笨蛋如出一轍,完全忽視「理解」這回事?老師們不應該跳出來罵人嗎?
在很多領域我們資料取得容易,但是事出必有因的原理卻複雜到難以掌握,譬如股票交易的漲跌變化,那確實是很適合使用機器學習技術的!就是我們對於原理無法掌握的事情就必須靠經驗判斷了!就像古人對於天氣變化的原理一無所知,就只能依賴老人或歷史累積的經驗做判斷,所以你同意古人比氣象局更AI嗎?
我們多數人都比較信任氣象局多於農民曆,但是氣象局的預報是依據科學原理的模擬推理多?還是依靠歷年統計資料(機器學習訓練)多呢?農民曆可是數千年的累積資料「訓練」的成果哦!應該會比氣象局更AI吧?機器學習的崇拜者們怎能忽視農民曆的價值呢?
因為我知道機器學習的原理,所以我很難接受它們是人工「智慧」最重要技術的說法!就像要我尊敬當年靠死背得高分的同學一樣困難,因為我知道那種努力沒有用!只要題型稍有變化他們就一定考不好了!反觀真的能深入理解科學原理的人呢?題型不管怎麼變,原理是絕對不會變的!那才是值得追求的好「智慧」!
在AI領域其實不是只有機器學習一種技術,運用對科學原理的理解建構的AI我們稱為專家系統!其實那才是目前多數實用化AI產品使用的主流技術!我是個實作影像辨識產品超過十年的專業廠商,我就是始終在使用專家系統開發這種AI產品的人!完全沒用過機器學習,但是活得比迷信機器學習的同業更好!
舉個實例吧!上面的影像中有兩個待辨識的貨櫃碼,機器學習派的專家會說:「只要給我幾千幾萬張的這種貨櫃影像,我就可以『訓練』出能正確辨識每一個貨櫃碼的辨識軟體!」但是很不幸的,合適合理的資料永遠不夠多!或是必須花太多錢去買或去做!而且雖然貨櫃碼的基本原則是很明確的,但是很多細節變形卻是難以掌控的,所以資料永遠不夠多,尤其是容易辨識錯誤的邊緣資料!
譬如上圖中11個字成排像是貨櫃碼的目標群組就好多個,我怎麼知道JYS20080302「不是」貨櫃碼呢?這不必用大量資料訓練的!因為真的貨櫃碼前四個字一定是英文,第四個字還一定是U!不合乎這個特徵立即就被排除了!比大量資料訓練既簡單又更有效還更準確!笨蛋才會消耗資源做這種愚蠢的訓練!
即使你真的能經過訓練找到圖中真正的兩個貨櫃碼,問題又來了!從大量資料訓練出來的「經驗」一定會告訴我們:「貨櫃碼的11個字大小應該是一樣的!」我研究辨識貨櫃碼已經看過幾千張影像了,只有這張影像上方的貨櫃碼最後一字的檢核碼被刻意縮小了一半!所以機器學習的軟體當然會說那組目標應該「不是」貨櫃碼!但是所有稍有常識的普通人都不會認同!會覺得這個AI好蠢!
我的軟體當然不是靠機器學習這種不顧原理只看資料訓練結果辦事的愚蠢AI做的!就像我讀書時都很聽老師的話,任何課程都努力理解原理,不會只靠死背的!所以我才能讀到博士嘛!這個道理很簡單很明白,應該任何人都能懂能接受的!這樣準確掌握原理原則做出推理的辨識軟體不需要太大量的資料,開發與使用的成本都遠遠低於機器學習!當然也更準確聰明許多!
這就是我始終沒用機器學習作影像辨識的原因!我寫的書上都說得很清楚,這本書最近也已經庫存賣光剛剛重印繼續上市了!我也是因為「不用」機器學習省下好多錢,公司才能順利營運至今的!迷信機器學習的公司大多都倒閉了!不要太相信AI廣告,要認真看他們的產品是不是真的能用!
限會員,要發表迴響,請先登入