
現在的影像辨識,至少在網路資訊上已經被炒作到好像必須以CNN(類神經網路)與DL(深度學習)為主軸了?雖然我非常不同意這個觀點,但是並沒有因此把這些技術視為敵人?反而是會積極學習理解並掌握它們與我習用的OCR等傳統技術不同的優勢納為己用,因為海納百川所以成其大嘛!
上面的例子就非常有趣!大家可以看到因為車牌角度太斜了,所以即使我將幾何變形做出了最正確的修正,但是因為字元在原圖中原始的畫素解析度就是不夠,所以看起來就不是很標準的字型了!如果只是堅持OCR的理念用標準字模去比對,結果一定不理想的!
對於CNN或DL來說,他們如何認字的基礎來自大量真實資料的學習,就是會收集非常多真實資料中各種解析度未必理想的字元目標影像去訓練,經過長時間大量計算之後他們會統計出某些特徵代表是某個字的機率值,統計這些機率值後就可以判定目標是甚麼字!對於模糊一點的字元辨識好像就比較有優勢?
但是我不必使用機器學習也可以從既有資料中自行整理歸納出每個英數字應有的特徵,配合字模比對結果予以加權計分就可以得到更接近事實的辨識結果!再加上車牌格式的限制等等先驗知識,如上這種其實解析度偏低的車牌我也能判斷出正確結果了!
簡單說,我的程式中與DL或CNN模式的軟體一樣,有特徵辨識的能力!只是我的特徵並不仰賴大量資料的機器學習,而是在我本身的經驗與知識主導之下設計出來的!譬如8字的左下方沒有缺口,9字就有等等!這些加權的比重值我也可以依據類似機器學習的統計方式決定,我的軟體就會擁有跟CNN、ML與DL一樣的優勢了!但是因為只在很局部範圍使用,運算成本非常低的!不會需要GPU的!
所以我雖然號稱是以OCR技術為基礎的車牌辨識研究者,我也相信以CNN與DL為主軸的車牌辨識是一場必然失敗的鬧劇!但是我的軟體確實不排斥吸納這些技術的優點!也讓我的技術優勢更為強大!
限會員,要發表迴響,請先登入



