Contents ...
udn網路城邦
手機拍照的普及迫使影像辨識進入3D時代了!
2024/05/03 09:43
瀏覽799
迴響0
推薦6
引用0

上面這個車牌影像非常清晰,但卻是一個可以考倒絕大多數車牌辨識系統的超難題目!大家可以看看右側圖的紅色網格線,有點像做動畫時,他們會控制網格點的變化來扭曲一張人臉,就可以讓一張靜態的人臉影像產生不同的表情了!所謂的深偽變臉就是這樣玩的!

但是我做的事情或許更難!是一個逆向處理,先替一個在立體空間中因為特殊視角產生形狀扭曲的車牌找到四邊合理的切線,再用內插方式建立一個扭曲的網格系統,再設法依據網格間距將車牌的扭曲影像轉正(投影)為一個標準車牌的矩形影像!真正的字元辨識是從已校正好的車牌影像開始的!如上圖右下。過程有點像將一張笑臉變成無表情的人臉。

按照機器學習派的神話,他們會說不必那麼麻煩,只要多拍幾張歪斜角度的車牌影像丟進Model做「訓練」就好了?但立體空間中歪斜角度的可能性是無限多的!需要的資料量一定會大得離譜,訓練的時間成本與模型複雜度也都會大得離譜!當然很複雜的訓練成果(Model)也會讓辨識時間拉得很長!所以用機器學習可以解決這種問題嗎?那是神話也是鬼話!保證會讓研發單位破產使用者抓狂的!

機器學習就很像上面的用最小平方差求取一條直線的示意圖,必須有很多的資料,也就是必須做很多次的實驗,也就是投入很高的成本,才能逆推出這個「接近正確」的直線!但如果我知道這個物理現象的正確機制,可以從已知確定正確的物理定律推導公式,那我只需要一兩個可靠的資料點就可以決定一條「理論正確」的直線了!龐大資料中的隨機誤差反而使資料逆推的直線無法這麼正確

最值得重視的關鍵是:兩者達到目的需要的成本相差實在太大了!對於我們這種依靠研發AI產品求生的廠商來說,這就是事業成敗的關鍵了!選錯了研發AI產品的方法就會事倍功半,投資大成效低!選對了,就會事半功倍,投資小成效大!而機器學習(ML)、深度學習(DL)與類神經網路(CNN)就是絕對最燒錢的選擇了!而且不是不得已非用不可的必要選擇!

那如何將立體空間中因為視角被扭曲的影像轉正呢?這就是幾何學運算的技術了!也是我的影像辨識技術中非常重要,能占盡優勢的關鍵技術!我的軟體可以辨識車牌影像的歪斜程度無疑是台灣的第一名!或許在全世界也是頂尖的!怎麼作到的?絕對不是用龐大資料「學習」出來的!而是用我國高中學會的幾何學,認真解題解出來的!

這個技術很重要嗎?說給大家聽!我們的數位影像都是2D(二維)的資料,但拍攝的卻是3D(三維)立體世界中的目標,所以數位影像可以說是3D目標的2D投影!如果每張影像都可以完美控制影像取得的角度,我們要辨識已知形狀的目標時,幾何校正是很簡單的!

譬如掃描的文件、證件或考卷影像要正確辨識時,需要的幾何處理就只是:旋轉縮放平移!像一般停車場出入口那樣,很正面拍攝的車牌影像效果也會跟掃描文件一樣,是很好辨識的!所以幾乎任何車牌辨識產品都可以用在這種簡單的情境!技術不高的!正如NBA球員比的Too small手勢!

但是用監視路況的攝影機或手機拍的車牌影像呢?那扭曲的程度與狀況的複雜就精彩了!譬如上圖的車牌不只是略有水平傾斜而已,因為俯視會讓字元變扁,加上側視角度,會讓每個字元的中軸傾斜度,甚至扁平扭曲程度都不一樣!所以絕對不要小看我可以正確校正這些幾何變化的能力!這是很難的!

很微妙的!手機可以隨手拍照的這件事,讓我的3D影像辨識技術變得更加重要了!因為近距離的拍攝會讓這些幾何變形更加明顯劇烈!在影像如此清晰高畫素的狀況下,如果因為幾何變形而無法正確辨識?或是軟體嚴格要求使用者一定要很正面的拍攝目標才能辨識?辨識軟體與專家就會被罵死了!

所以拍照手機的普及算是給影像辨識專家們出了一個大難題!譬如我曾擔任某大公司的顧問,技術轉移給他們很多2D文件影像辨識的技術,他們也做得很好!但稍後他們遇到客戶要求辨識手機拍攝的證件或考卷時就尷尬了!最後這種案子還是要回到我們公司手上!像是手機閱卷或瓦斯表的手機拍照辨識等等。

換言之,雖然影像始終還是2D的資料,但是影像辨識技術已經被迫需要處理3D環境下拍攝產生的變形狀況了!影像辨識必須進入3D的時代了!這種問題也再度擊中了機器學習的要害!用物理與幾何學來看,這就是一個高中到大學程度的考題!是一定可以明確解題的!我就做到了!而且辨識速度依舊很快,不會因為這種幾何校正耽誤時間的!

但是如果你堅持要用機器學習解決這種辨識問題呢?那就請您耐心慢走!如果你的公司錢花光倒閉了就請通知(哀號)一聲!我預期結果一定是這樣的!這種3D變形的辨識沒有機器學習可以生存的空間,即使勉強做出來的產品,也完全沒有跟幾何校正產品競爭的可能性!絕對會太貴,效能也太差!機器學習在這個問題上也是「Too small」了!

有誰推薦more
你可能會有興趣的文章:

限會員,要發表迴響,請先登入