正確的字元定位是克服目標破碎的關鍵利器！ - 鄉下老師

Contents ...

正確的字元定位是克服目標破碎的關鍵利器！

2025/11/24 04:43

迴響0

推薦13

引用0

這張影像對於一般人的視力來說是很容易辨識的清晰車牌，但是對於OCR軟體而言則是一個相當刁鑽的案例！原因是字元有略為失焦模糊的現象，所以一般人看起來明明是「J」的字元會破碎成兩塊，而且剛好較大的那一塊本身就怎麼看都是一個I(或是1)！如果我的軟體無法「認知」到它們其實屬於同一個字，就怎麼辨識都會認為第一個字元是「I」了！

這就是做車牌辨識最尷尬的時刻！一般人評斷辨識軟體好不好？當然是跟自己的辨識能力做比較的！既然號稱AI軟體就應該很聰明！即使不能比我聰明，也不能比我(一般人)笨很多吧？所以我必須最努力克服的不是那些連人眼都看不清楚的車牌，因為那些案例即使錯了也不會被罵，上面這種錯了呢？就壓力山大了！

如何讓上例從錯誤的I變成正確的J呢？其實就是必須從其他已經正確辨識的字元目標推算出破碎字元正確的涵蓋區域範圍！那個初步被認為是I的目標其實是有可疑之處的！它太靠近隔壁的8字了！如果它真的是個I，中心點的X座標與相鄰字元的距離應該與其它已知字元之間的距離相似的！

因為我發現那個疑似的I與右邊隔壁的8太近了，所以知道這個「字」的中心位置應該在更左邊一點，就是會涵蓋那個J的底部碎片的位置！重新調整此字的中心與相對的寬度之後，破碎的J字就可以被重組成合理正確的字元答案了！如果沒有這種細緻的幾何偵測、判斷與處理的能力，我的模糊破碎目標的辨識就不會那麼強了！這就是影像辨識的具體內涵了！

影像辨識要做到高辨識率，其實就是類似這種細節偵測與處理能力的累積！就像有經驗的資深員工就是可以處理更多意外與例外的職場工作狀況！菜鳥呢？通常只能按照受訓時學到的SOP，能做好狀況正常的工作而已！正如只要會寫程式的人都可以用OpenCV的既有函數組裝出堪用的車牌辨識軟體，但只要是稍微偏離標準狀態的車牌就通通無法辨識或辨識錯誤了！

所以影像辨識絕對不是不能理解的神奇秘技！我很樂於替所有好奇的讀者揭露我的辨識技術，但細節多如牛毛，我天天寫文章介紹也寫不完的！就像你看雕刻老師傅工作時，他的每一個動作你都看得懂，也可以模仿學得會，但是他累積多年的經驗，看到甚麼狀況該如何下刀呢？就是初學者必須學很多年才能跟上的內容了！

也因此我根本不怕讓讀者知道我的技術關鍵，大家盡可認真模仿學習，但是做出來的軟體成果還是會跟我的產品有相當大距離的！甚至你得到我的原始程式碼，如果無法充分掌握細節，我又是天天在既有基礎上求進步的！你也會很快又落後我一段距離了！

當然如果你是機器學習派的信徒，就會認為我的作法根本不必要！收集大量資料讓電腦學習就好了嘛！事實上那是所謂的Long Shot！成功機率極低，成本還極高的！我在業界多年，還沒聽過或看過有與我競爭的同業真能依賴ML、DL與CNN等所謂的AI技術，威脅到類似我的傳統技術廠商的！一個都沒有！