這張車牌影像的辨識最驚人的是側視角度高達75.68度!當然這只是我用字體變形(窄)程度估計的數值,並非真的在現場量過拍攝角度,所以只能說是我自我挑戰的相對標準,這個數值確實是我自己做過的最大值了!
對於我使用的OCR技術來說,最困難的部分是當車牌這麼斜視時,字元之間的空隙就會縮得很小,甚至完全消失,造成字元沾連,如上案例中事實上AAD三個字在原始圖片上是連成一塊完全無法分割的!我是在大致找到車牌範圍之後,經過幾何校正讓車牌水平傾斜消失,再嘗試將沾連字元切割成功的!
可以想像這是很困難複雜,但每一步驟都是可以完全用科學原理理解分析的過程,我也很踏實的研究如何處理每個案例發生的狀況,來寫出針對性的處理程式完成辨識的!這是一個很需要知識與技術的精密工程,但好處是每一步驟都有道理,沒有無謂的嘗試錯誤運算,最終就是能以極高效率,最少的運算量達成辨識的目的!45毫秒(0.045秒)真的是快到做過類似工作的人都知道很神奇的程度!
但是現在的人都認為我這種人是古蹟?早該被AI時代淘汰了?這種複雜到很難絲絲入扣掌握細節的難題,一定是要用機器學習或深度學習才能作的嘛!但理論上要用大量資料讓機器「學習」出這麼複雜精密的處理程序,我不能說完全不可能,但需要付出的成本代價實在太大,如我這種小資本公司是絕對無法嘗試的!所以我並不是不會或不想用機器學習,而是知道我絕對不能用!就像我買不起數千萬的超跑一樣!如工研院說他們是用500萬筆資料訓練車牌辨識模型的!我哪來這麼多資料?賣了十年車牌辨識軟體,我也只收集到幾萬筆而已。
現在以機器學習(ML)、深度學習(DL)與類神經網路(CNN)領銜的所謂AI技術已經如野火燎原一般的勢不可當,為了大眾的利益與科技的進步,我其實也是很希望那些方法真的有用的!他們並不是我的敵人,如果成本合理,成效也合理我一定會採用的!但很可惜,事實上就不是如此!
雖然我也看過如上的AI影像辨識宣傳說,他們也可以做到75度斜視角的辨識!但是可以預期使用那種以統計學基底的技術的不確定性高,不只是訓練需要的資料成本與運算成本極高,訓練出來的模型也不可能是可以真的解析影像狀況做最針對性的辨識運算的!也就是執行辨識時的運算量還是很高的!如果他們的軟體跟我使用一樣的電腦設備,辨識時間會是多少?絕對不可能是45毫秒的!應該是十倍以上!不花大錢消化大量運算就會顯得太慢無法實用了!
大家現在都很推崇那些AI技術的主要原因是他們可以做到「不知而行」!就是即使你不懂該領域的專業知識,也可以用資料統計做出堪用的軟體!但是大家顯然都忽視了ML、DL與CNN等技術的運算成本!有針對性準確合理的演算法可以做出如上的45毫秒辨識成功的軟體,表示可以省電環保還不必增加硬體設備,降低營運成本!
相對的!只要你使用的技術一沾上ML、DL或CNN,就代表一定有高到不合理的運算量需求!或許在某些領域這是不得已的必要之惡!譬如經濟學家算了幾百年也算不準股市漲跌,但是用資料統計就可以做得比用經濟學理論計算得更好一點也更即時!但是在影像辨識的領域是完全不同的故事!
事實是在沒有ML、DL與CNN使用於影像辨識領域之前,所有的商用影像辨識就已經是高於九成辨識率的狀態!不到95%甚至98%的車牌辨識、人臉辨識或指紋辨識其實都是賣不出去的!而且傳統技術還有持續精進的空間,我這十年來就是以傳統技術為基礎不斷研發進步來建立我的事業的!所謂的AI影像辨識技術從來沒有威脅到我!
大家必須知道ML、DL與CNN是以統計學為基礎的科學,簡單說就跟命理師憑經驗算命很類似!他們是不追求用科學理解事實的!純粹以資料的因果關係建立辨識模型,準確度當然無法追上傳統影像辨識技術,這是學理上就可以證明的事實!這些AI的極限天花板也無法超越傳統影像辨識技術的!所以我們才會放棄命理等以經驗建立的推算方式擁抱科學嘛!
換言之,這些AI技術唯一的利基只是可以替根本沒有影像辨識專業知識技術的人開一扇方便之門!大家都可以開始做,但是成本會高得嚇人!效果呢?怎麼作都做不到傳統的影像辨識那麼好!就因為演算法沒效率,所以一般電腦的CPU都不堪他們的浮濫使用,才需要使用到GPU來幫忙的!也因此造就了輝達等公司的榮景!
所以我很想讓大眾知道:對於影像辨識領域來說,不論是開發或營運成本,最花錢的就是運算量!如果可以從演算法的基礎上節省運算量,開發者就可以鬆一口氣,營運者也會省很多錢!唯一有損失的只是像輝達之類的硬體製造商!你必須看清時勢,在影像辨識領域這些狹義的AI技術真的能讓你賺錢嗎?還是會拖垮你的事業呢?
限會員,要發表迴響,請先登入