
我的日常影像辨識研究就是想盡各種科學與數學方法,更聰明的做出更正確的辨識!如上的案例是失焦造成的模糊現象,在光線較暗或畫面移動較快的時候很常見的!如果你的攝影機感光度夠強,自動對焦的反應夠快就比較不會產生了!但我也不能要求客戶一定要用很貴的攝影機,我的軟體想讓客戶按讚,就要在這些邊緣案例做得更好了!
當然這些點點滴滴的小技巧,絕對不是只用一套制式的機器學習模型架構就可以做得很精緻很好的!而是像人類學習視覺辨識的智慧一樣,是非常多細微經驗的累積成果!以OCR技術的觀點,我們要找到影像中的車牌字元,二值化的過程是必要的!其實就是簡化色彩複雜的目標,變成黑白分明的小區塊。
類比於人類的視覺就是我們會嘗試注意到亮度對比特別高的區塊,但是何謂「較亮」?何謂「較暗」?的標準是很有彈性的!從全圖中概略找出「車牌」區域用的門檻值是一回事,我稱之為宏觀的二值化門檻!但是當我們已經框出車牌區域之後,就會發現這個宏觀的門檻值未必適用於每一個單一的字元目標!
如上案例的0字元右邊就因為失焦變得模糊偏亮,使用宏觀的二值化門檻就會變成缺口,二值化後的區塊就怎麼看都是一個C字元了!此時我們就會問:人的視覺能力一定會成功辨識出它是一個0而不是C!這是怎麼作到的?我可以用數學方法模擬這種智慧嗎?
我的答案就是再做一次「微觀」的二值化了!如果你只注視視野在那個0字的附近,其實很容易看出新的一個「黑與白」的界線!如圖所示重做二值化的0就非常清晰了!這就是我能正確辨識很多較模糊字元的關鍵技術之一了!我不會覺得這是甚麼值得隱藏甚至申請專利的商業機密!所有人的腦袋都是這樣作辨識的!即使你看懂了我說的數學觀念,要用精準的程式實作出來也很辛苦的!AI要好需要做的事情太多了!就多互相幫忙吧!
其實我不怕太多人學招,縮小我的商業優勢,主要原因也是因為現在流行機器學習與深度學習嘛!主流派的影像辨識觀念是我這種研究方式已經太落伍,太「不AI」了!即使我毫不藏私苦口婆心洩漏天機也沒幾個人真的會認真學我的!我其實是寫給會看戲的內行人看的!留下文獻紀錄,讓歷史證明我是對的!
因為我知道長遠來看,我走的才是影像辨識能正確發揚光大的康莊大道!用科學與數學技術模仿與模擬,實作出人類(動物)已經演化幾億年的視覺智慧,當然是最合理的影像辨識研究方向!反之,妄想利用大量資料,經過電腦的機率統計計算,就能很快跑出超越幾億年演化出來的視覺智慧?這才是荒誕的幻想!事實上深度學習炒作那麼多年了,在市場上仍然是完全不敵我這種笨方法的!
限會員,要發表迴響,請先登入







