Contents ...
udn網路城邦
這是一個JPG壓縮會產生的大問題,但是我有解方!
2025/12/29 10:48
瀏覽37
迴響0
推薦1
引用0

這是一個有陰影跨越字元的車牌影像,而且是個已經過JPG壓縮的影像!原始未壓縮的影像中,車牌背景的白色應該是一樣的,陰影部分是一個較暗的灰階,沒有陰影的部分是較亮的灰階,字元前景(筆畫的部分)是更深色的灰階。

理論上,如果我們選擇一個介於字元灰階與陰影灰階之間的門檻值,應該可以避開陰影的干擾,很清晰地把字元切割出來!但是在經過JPG壓縮的影像上就是無法做到!因為JPG的壓縮會讓簡單的陰影邊界變成類似「描邊」加深顏色的邊界,所以就會變成如上幾個字會被這個多餘的描邊線連在一起了!

對於OCR來說,我們就無法將字元單獨正確的切割了!所以就要被迫做更多額外的影像處理,類似分割連體嬰了!如果沒有JPG壓縮,我們辨識時是使用未壓縮的BMP格式,或是不會產生這種邊界扭曲的PNGGIF格式壓縮,都可以更簡單正確地做出辨識結果!

我最近發明的一個較簡單處理是在如上有藕斷絲連的二值化圖上找到橫向的細線,偵測此細線上下的灰階值,如果是正常筆畫造成的黑線,上下灰階值會很相近,明顯上黑下白的細線就是JPG造成的雜訊了!把這些細線清除之後再檢視黑色區塊字元就粒粒分明了!

所以任何影像的產生都是事出必有因的!只要能夠正確掌握事情發生的物理原因,或是演算法產生的副作用,我就可以更準確的對症下藥清除特定原因產生的雜訊,也就是掃除正確辨識的障礙!所以我的影像辨識總是可以克服最多的辨識障礙,達到最高的辨識率!

我覺得重點是:我做影像辨識時,永遠都會思索分析清楚事情發生的原因,我的應對演算法也是精準地根據雜訊成因設計的!絕對不是根據資料統計值硬抝湊答案的!這就是我跟使用機器學習或深度學習的影像辨識團隊最根本的哲學差異!這確實需要更多的專業知識與物理及數學素養,但絕對可以做得比甚麼學習訓練更準確!運算量低很多,研發與系統建置成本也低很多!

有誰推薦more

限會員,要發表迴響,請先登入