


這是一個很難辨識的極端案例!難在哪裡呢?當然就側視角度太大,尤其是遠端的AXL三個字被扭曲壓縮成一個模糊的團塊,你要怎麼用數學方法分析出他們原本是三個獨立的英文字呢?很神奇的是:任何視力正常的人細看之後應該都會說出AXL的「正確」答案!
此地說的「正確」就是所有人的視覺「共識」,就是視覺的「智慧」了!但是要如何用辨識軟體做出跟這個智慧一樣的判斷?就是「人工智慧」也就是AI要做的事情了!我的影像辨識理念就是:只要多個人都會認為是一樣的答案,其中必有可以數學化與程式化的可靠邏輯!我的工作就是做逆向工程找出這個邏輯,或是找出可以達到一樣結果的邏輯!
這個工作當然很不容易,所以才會產生機器學習這種想法!就是用已經經過人類視覺解答的資料,以機率統計的方式去自行組織出這個神秘的邏輯!很像用大量題庫訓練考生如何不必真的理解問題就能歸納出可以答對最多題目的「經驗公式」!我讀書都是追求充分理解的!所以如果可以理解時我當然不願意死背!這就是我會不喜歡使用機器學習的第一個理由!
所以我會盡量對困難的目標做合理的幾何校正,如果校正後的AXL三個字還是連體嬰的話,就進一步研究應該如何正確的分割它們!當然原始畫素已經不多的目標,再切成三份?可以決定它們是甚麼字的資訊就更少了!以此例來說每個英文字元的寬度就只剩四個畫素了!加上攝影及影像壓縮時產生的隨機誤差,就真的必須猜字了!它們絕對不會很符合標準字模的!
但是我相信既然每個人的判斷都一樣,我也一定可以用程式重現這個邏輯的!就是多做研究與統計而已!所以在細節處我也是有機器學習的機率統計概念的!只是我不會將複雜的大問題直接丟給電腦(機器)去自己胡搞瞎搞(深度學習)!我相信這是比較穩定可靠的影像辨識方式,到目前為止我也做得很成功!
我希望大家理解我的影像辨識做法,不要因為好像機器學習很熱門?就輕率的否定或低估我的影像辨識技術!我相信時間久了我會在這個領域自成一格,甚至變成領導技術的!科學是不會騙人的!我一定會將科學原理使用到極致之後才會使用機率統計的!