車牌也有Pitch, Roll, Yaw的旋轉姿態，但CNN看不懂！ - 鄉下老師

Contents ...

車牌也有Pitch, Roll, Yaw的旋轉姿態，但CNN看不懂！

2023/09/23 16:19

迴響0

推薦6

引用0

我會知道這幾個名詞不是因為學過開飛機，而是讀海洋研究所時研究船上也會有所謂的Motion Sensor偵測船隻的這幾個旋轉參數，尤其是我們用聲納作水深測量時這幾個參數還蠻重要的！我在台灣的海洋領域有點知名度就是因為我使用聲納的專業很厲害，甚至可以自己寫出各種聲納資料處理軟體！

因為船上的測深聲納是固定在船殼上，往船體的正下方發射的，如果船隻因為波浪往右傾時，聲納音束其實會射向船隻所在位置的左方海底，而不是GPS上面看到船隻位置的正下方！水深資料的位置與深度就應該按照旋轉角度作幾何學的修正了！

但我實際上多半是作近岸幾十米深的淺水域探勘的，也都一定是選在風浪比較平緩的天氣出海探測，所以這種因為船身旋轉導致的誤差極小，比聲納本身和GPS定位產生的誤差範圍還小，所以通常是不必修正這種誤差的。所以我實際操作Motion Sensor或處理這種資料的機會也很少，只是知道有這回事而已。

會想到這幾個過去專業中的名詞，是因為我現在研究的車牌辨識在立體空間中也會像船隻或飛機一樣，有這幾個旋轉量。車牌的水平傾斜度就相當於Roll，側向斜視的角度就相當於Yaw，俯仰的角度就相當於Pitch了！

當車牌的Pitch, Roll & Yaw都趨近於0時，就是最容易辨識的正面角度，角度越大拍出來的車牌變形就越嚴重，要正確認出裡面是甚麼字？就必須作很複雜精準的幾何修正了！所以用這套術語來說，就是我對於車牌的Pitch, Roll & Yaw三個旋轉量產生的誤差處理與復原的技術優於其他車牌辨識業者了！

一般來說，傳統的車牌辨識是用CNN的矩形目標假設，以特徵搜尋方式在全圖中找車牌的！所以是假設Roll的旋轉量很小，車牌看起來還大致是個矩形，如果Roll(水平傾斜)大過十幾度時，車牌就會偏離水平矩形的假設很大，就會根本找不到車牌了！直到現在市面上的車牌辨識系統，除了我賣的之外，傾斜容忍度(Roll)都不超過15度，可見大部分人還是繼續在沿用CNN概念的矩形搜尋的假設。

另一方面，車牌的Pitch與Yaw旋轉量產生的變形是車牌的寬高比會改變。當Pitch(俯仰角度)變大時車牌會變扁，Yaw(斜視角度)變大時車牌會變窄，如果你用CNN的概念，假設車牌目標為固定寬高比的矩形，也會找不到Pitch and Yaw變形較大的車牌！如果用CNN的多尺度多層次掃描來增加搜尋的範圍呢？那就會導致運算量暴增，辨識速度變得很慢，又需要輝達晶片來救援了！

我目前在車牌辨識技術中領先其他業者的就是歪斜變形車牌的辨識能力極佳！應該說是最好！而且不論是以上三者的任何一個旋轉度數很大時，我都能辨識，不只是在全圖中總是能快速找到已經變形嚴重的車牌，找到之後也能準確地將變形的車牌復原成標準矩形的影像，繼續作出正確的辨識結果！如下圖就是一個較極端的實例：

以旋轉軸的方式形容，這就是一個Pitch=50.31°，Roll=48.18°，Yaw=56.11°的車牌！如果以CNN的方式搜尋車牌會非常困難，或根本做不到！但是用OCR直接找字元的方式呢？我們是不做耗時的卷積運算(Convolution)的，也不會預設車牌或字元的形狀大小，就是灰階→二值化→切割獨立目標之後，看看堪用的可能目標狀況分布狀況，再決定下一步：

如上圖，排除太大太小的目標後，剩下可能是車牌字元的目標其實不多，從原圖處理到這個步驟消耗的時間也很少，即使是如此難辨識的車牌，完成整個辨識流程也只需要0.325秒！這就是OCR能作到，但CNN不可能做到的事情！使用CNN的模式可能光是第一階段的卷積運算要鎖定到正確的車牌目標，就要花掉比0.325秒多好多倍的時間！還極有可能根本找不到！

反而是已被AI詐騙集團汙名化輕視冷落的傳統OCR技術架構下，可以找到快速有效的辨識方法，因為我真的就是做到了！而且這些技術方法已經是我被廣泛購買使用的商品內容！任何人都無法否認的！CNN專家們，你們已經輸了，也沒有翻身的可能，就不要再繼續誤導影像辨識的學習者，使影像辨識的科技水準因為不恰當的技術選擇而停滯不前了吧！

懇請有膽識有擔當的CNN學者們請不要再裝聾作啞了！不要再用甚麼「學習」或「訓練」或「AI」之類意義含糊的字眼自我催眠，還誤導洗腦一般人與影像辨識的初學者了！早點面對現實，承認CNN、ML與DL在影像辨識領域根本「作不到」的事情吧？對這些不以精準科學原理為基礎的機率統計技術來說，如上的困難辨識就是任何機器都永遠都無法用大量資料學會的智慧了！CNN是不可能取代OCR變成影像辨識主流技術的！Not even close!