Contents ...
udn網路城邦
我的模糊目標切割決策,是來自所有可用資訊的機率統計!
2026/05/20 04:02
瀏覽104
迴響0
推薦1
引用0

圖一 車牌放大影像圖

圖二 全景影像

圖一是一張從街景中擷取到的極小車牌影像的放大圖,上方是二值化的結果,下方是灰階圖,原始完整的影像則如圖二。毫無疑問,使用OCR的技術BRF三個字元絕對是完全沾連在一起的「單一」目標!如果不用破壞性的影像處理強制切割,這個辨識程序就到此為止宣告失敗,無法辨識了!

但是我的軟體真的能以很高的成功率辨識出這種難度車牌的正確答案!技術關鍵在哪裡?就是非常精準合理的切割BRF三個字元了!我之前會含糊地說是使用局部CNN的搜尋技巧,這個說法不是很準確!事實上我會使用車牌對應的灰階圖的資訊做一些機率統計!來決定目標切割的下刀位置!

從已經二值化的BRF區塊當然很難建立穩定的邏輯應該從哪裡下刀切割,最武斷粗糙的方式是整個區塊的寬度除以3。但以此例來說,整個區塊的畫素寬度只有23,除以3取整數可以是7也可以是8?這就是所謂的數位截斷誤差,Trucation Error了!

在這麼小的範圍內,你用78畫素為字元寬來切割,答案就不一樣了!你是要取78呢?如果只是輕微沾連,真正的字元之間黑點數會較少,就是藕斷絲連的狀況,確實可以用數黑點密度決定字元間的切割位置!如此例中RF之間還勉強可以看出黑點數較少的位置,但BF之間則是全面相連,怎麼辦?

此時就必須尋找更能判斷字元沾連區弱點的資訊了!答案就是圖一下方的灰階圖了!如果你能統計BR之間的每個X位置的灰階平均亮度,那最可能的正確間隙,也就是你應該下刀切割的位置,就是平均亮度最高的X位置了!我就是這樣充分利用所有可能的資訊,以機率統計的概念決定動刀處的!

當然如果目標實在太小,即使切割位置已經盡量合理,但是用來判斷是哪個字元的差異資訊不足,答案還是會錯誤的!但是我的處理方式已經將可用的極少影像資訊發揮它的效益到極限了!事實上就是會讓類似此例的模糊車牌辨識正確到跟人的眼睛差不多厲害了!這不就是AI人工智慧的目標了嗎?

有趣的部分是:在此我真的做到了AI影像辨識的目標,但不是使用大家推崇炒作,已被過譽的CNN(類神經網路)DL(深度學習)!但卻又是與機率統計的技巧有關?我覺得這一點蠻微妙的!如果我把這個創意寫成SCI論文投稿,主流派學者一定不讓我發表的!

其實機器學習與CNN等技術也都是使用機率統計的技巧,從影像資料之中取得做出AI判斷的特徵依據。但是我不會把機率統計當作辨識流程的主體!因為用OCR簡單有決定性的流程就可以高效率做到99%的辨識工作了!為何要用計算龐大低效率的方式去辨識其實很清晰的字元?殺雞何須用牛刀?不但成本高,效率還差?這是何苦呢?

機率統計方法的優勢,是在資訊不足或不確定時,做出最合理或接近物理事實的判斷!我就是這樣在字元目標太小又模糊時才啟用機率統計的!所以我的軟體才會那麼快速有效,連模糊辨識的能力都可以不輸CNNDL,甚至更強大!影像辨識就是應該這麼玩的!這幾天在研究上面這個路口拍攝到的影像,辨識正確率是717/728,超過98%的辨識率!其中至少一成以上的車牌有用到上述的切割處理!沒有這招辨識率就至少降個五趴了!

有誰推薦more

限會員,要發表迴響,請先登入