影像辨識就是你我視覺過程的人工複製品 - 鄉下老師

Contents ...

影像辨識就是你我視覺過程的人工複製品

2021/07/12 04:34

迴響0

推薦13

引用0

如下我在FB上發表了一個與客戶互動的小小實例，引起了好多網友讀者的關注，兩三天按讚數就快破百了！應該是大家都覺得好神奇？但我的感覺感想如上，對我來說這是一件很簡單且必然的事情！多數人會覺得神奇，都是被一心想製造懸疑，欺騙世人的所謂AI影像辨識專家們誤導了！

其實影像辨識絕對不應該是個神祕深奧的科技，因為不需要科學家與電腦高手的協助，每一個人的眼睛加上大腦合作進行的日常影像辨識能力，就遠遠超過目前所有的AI影像辨識軟體的極限了！截至目前，任何影像辨識的評分標準都還是以人類的視覺判斷結果為標準答案！換言之，任何神奇AI影像辨識的專家都還是默認人眼的辨識能力是遠超過他們的研究的！這個你們注意到了嗎？

我很不爽的是：即使如此，這些AI影像辨識專家，口頭上聲稱類神經網路(CNN)是模擬人類的思考學習過程，實際上卻是極度不尊重，甚至蔑視人眼加上人腦真正進行影像辨識的判斷過程！只會模擬最底層的神經感應反射動作？甚麼神經元連結回饋之類的碗糕？實在太低估歧視人腦中影像辨識的邏輯了！

人類與其他動物的視覺判斷能力所以那麼好，絕對不只是因為神經元之間的連結回饋那麼簡單的事實而已！我是學古生物出身的人，我知道他們說的那些神經元連結互動能力，幾億年前的生物就已經有了！真正讓現在的人與動物影像辨識能力那麼好的邏輯，是幾億年來以神經元聯繫為基礎，加上各種外界刺激與學習，包括非常多非影像的資訊、知識與經驗的學習整合的結果。

你以為光是實現神經元之間聯繫互動的模式，讓他們自行「學習」幾個月，就可以達到幾億年生物進化完成的視覺辨識能力嗎？我就順著機器學習學派的說法好了！只要資訊量夠多，學習素材夠多，我們設計的軟體辨識邏輯就可以追上人類的視覺能力了？但是他們要如何提供幾億年間這些生物看過的所有(或至少有意義的)影像呢？

看懂了嗎？所謂的AI專家們，以為只要建立出人腦運作的最基底模式，加上足夠的資料訓練，很快就可以製造出跟現代人類與動物一樣厲害的視覺辨識能力？會不會太天真？太浪漫了？其實這是完全無法做到的天方夜譚！連人類小孩也不是看多了紅綠燈的影像就會知道紅綠燈意義的，那是爸媽老師教的！所以大部分的這類影像辨識才會深陷泥潦難以脫身，譬如我們還是無法讓自駕車很安全，具有人類駕駛的應有判斷能力！即使只侷限在視覺判斷的部分都難以達到。

他們最大的盲點，就是太低估了人類表面上依賴影像做出的判斷，其實都還依賴著大量非影像的知識經驗！如果你只依賴大量的「影像」資料，就希望軟體學會辨識車牌？甚至學會判斷自駕車看到的危險狀況？不可能的！他們的主要思考方向錯了！並不是只要解決人類如何處理影像資訊的部分，而是要正視：人類如何做出對於特定目標目的做出正確判斷的整體過程。

一開始我做影像辨識時，我只知道基礎的影像處理概念，如全彩到灰階到二值化到切割影像區塊取得獨立目標資訊等等技術，當我發現僅用影像資訊無法達到目的時，我就開始想：人眼是如何辦到的？我總是會很容易的想到就是一般的常識！譬如上面好清楚的H0316，我當然看到了，但是我知道台灣車牌沒有這種格式，我就忽略它了！

所以客戶常常問我：馬路上那麼多好像車牌的字元目標，你怎麼不會誤認它們是車牌？總是可以找到真正的車牌？即使真的車牌其實比那些假目標更不清楚？原因不是來自甚麼神奇的AI演算法，而是你我都知道的簡單事實與常識：台灣監理單位沒有認可「H0316」這種車牌，所以即使你明明看到了，還非常清楚！你還是不會說他是一個車牌號碼的！

這種判斷能力與影像資訊有何關係？與我們如何將資訊用神經元聯結偵測到的資料有何關係？又如何讓軟體根據大量資料「學會」這種「正確」的判斷呢？我只要將格式規範寫成程式碼篩選掉不合規範的目標不就好了？簡單直覺依照常識寫程式就可以做到了，何需複雜的ML或CNN程式模式？

反過來說，當客戶說：這就是我們想辨識的東西啊！你不能排除它的！看到這種東西就要告訴我啊！我當然就跟一般的警衛接到老闆指令一樣，好吧！如果看到H0316這種號碼我會認定是有用資訊報給你知的！我認為影像辨識就是這種東西，非常直覺簡單合乎所有人的常識，我也天天在按照這種哲學邏輯模式工作賺錢，遠比使用那些所謂AI科技做影像辨識的公司更有效率！

我老了！60歲了！我知道我可以靠著這個正確的認知養老到死不虞匱乏，只因為太多笨蛋想用CNN與ML跟我競爭，他們一定會輸給我！但我認為我最大的人生價值不是這樣拚輸贏，而是告訴這個世界我知道的真理！影像辨識的正確研發方向應該是用程式複製實現大多數人的視覺判斷過程，基本上完全不需要CNN或ML！它們只會浪費我們科技進步的資源與時間，貢獻度極低極低。低到你可以完全不懂ML與CNN也無礙於你依賴影像辨識研發工作賺錢！我目前的生涯就是實例鐵證！

如果你真的好好學過CNN，還略懂傳統影像辨識中的邊緣偵測技巧，我可以說得更深入！因為CNN主要的數學技巧與傳統的影像邊緣偵測其實是完全一樣的！完成邊緣偵測，蒐集到你需要的特徵資訊之後，你需要的就不是更多的CNN相關技術，而是我前面說的常識！所以我說CNN是可有可無的技術，只有根本沒學過傳統邊緣偵測技術的菜鳥才會把它當作寶貝！它不是新技術，只是換了一個名詞，也不會因此更有利於影像辨識，醒醒吧！