Contents ...
udn網路城邦
模糊失焦的影像能否成功辨識的關鍵是二值化的門檻
2025/06/12 08:45
瀏覽596
迴響0
推薦8
引用0

這是這一批327張新資料中最後一張頑抗被辨識的釘子戶,但最終還是被我攻下了!很顯然問題出在拍攝時就失焦了,導致字元相當模糊!一般來說,就是會讓OCR技術最為難的狀況了!OCR的辨識過程就是用二值化處理將字元切割成應有的字形,如果邊界模糊就會很難切割正確,自然也很難比對字模得到正確答案了!

很像一座山,如果四面都是陡峭的山坡,就很容易定義山區的邊界,但如果是漸進緩升的山坡,就可能因為個人觀點不同,定義的邊界就會不同!但好消息是:即使影像失焦模糊了,產生這種狀況的物理機制對於每個字都是很類似的!所以只要統一調整二值化門檻策略,就可以讓所有字元一起變清楚(或更模糊)!如下就是我的軟體會用不同的邏輯定義出不同的二值化門檻產生的圖:

右邊是我的SOP標準程序會產生的二值化圖,對於鎖定字元位置的程序來說是沒問題的!但是對於模糊影像來說二值化門檻就偏低了,會導致程式無法清晰地分辨出每個字元細節的筆劃,所以會有幾個字元辨識結果錯誤,最終無法通過檢核碼的檢核測試。

如果我就此放棄當然就是一個失敗案例了!可是從各個字元的黑點覆蓋率等資訊,我可以偵測出這個門檻過低的問題。一般來說清晰字元中的黑點覆蓋率大約是35%-50%,如果已知辨識結果是錯的,黑點覆蓋率又明顯偏高(或偏低),我就可以策略性地降低(或提高)門檻再做一次辨識,成功機率就會大增了!

以此例來說,我就是在降低二值化門檻後,讓字元筆劃變得較清晰,最終可以辨識成功的!上面辨識結果參數的90是字形符合度,T是通過檢核碼驗證(F就是失敗),N是表示用負片辨識(P是正片),表示白字會翻轉為黑字做辨識,如果是N0表示是用標準二值化門檻做的,N1就是更高的門檻讓黑點數變少,N2就是降低門檻讓黑點變多了!

我會將這些辨識的細節技術講得這麼具體清楚,一方面是來自當教授時的習慣,當我們在研究上有進展時就會寫論文發表,將研究成果清楚呈現,也會變成教授的研究績效!但是那些論文多數人是看不到的!我現在不當教授了也不需要那些論文績效了!但我還是很願意當個科學家,將我的成果告訴大家!

另一方面,我無師自通作影像辨識那麼多年,一直都很希望可以有更多同領域的具體研究資訊讓我參考學習,但是現在網路或書店中可以看到的都是我認為成效不彰的MLDLCNN等等所謂的AI影像辨識?我很失望,但也很自信我的研究方向與成果是很真實有意義的!也因為我的技術跟同業說的AI都不一樣,我也必須更清楚的舉實例說明我的技術是可靠可信也真的好用的!

與眾不同的研究方向也激起了我的老師魂!我希望能寫出更多具體事例與辨識原理,讓更多人知道影像辨識真的可以像我這樣踏實的研究進步!不是一定要用MLDLCNN等等囫圇吞棗不知所云的資料統計技術去玩的!那會浪費很多錢與時間,最常見的結果就是研究多年卻一事無成,還學不到任何影像辨識的原理!

面對那些AI我很像狗吠火車?但是沒關係的,反正我知道自己在做對的,有用的事情就好!如果你在那條大家都說是主流的影像辨識之路上感到困惑挫折時,至少還可以到我這邊聽聽不同的說法,找到不同的選擇!我可以保證跟著我走一定比較省錢還更有成效的!

有誰推薦more

限會員,要發表迴響,請先登入