Contents ...
udn網路城邦
影像辨識也可以用繁星計畫選材的!
2021/10/21 09:40
瀏覽666
迴響0
推薦3
引用0

如上圖這麼模糊的字元是怎麼辨識的?如果不解釋清楚,連我的客戶大概都會懷疑我作弊了!首先宣示這和甚麼機器學習(ML)或類神經網路(CNN)都毫無關係,也沒有任何神秘不可告人的技術,只有非常清楚合理的影像處理與辨識邏輯。

首先我們用正常的灰階與二值化標準程序處理,結果如上圖,字元對比太差了,根本看不到字,將F字元的灰階圖放大給大家看就更有感了!真的是既模糊又黯淡,現在的攝影機都很「聰明」,會自動對焦,它們是依據甚麼資訊調整焦距的呢?當然是影像中最強烈對比的目標,讓該目標更銳利!如果那兩個環狀的目標比字元更清楚,當然是聚焦於兩個黑環,字元就更模糊了!

面對這種影像,演算法方面還有甚麼招數可用呢?如果你用PhotoShop之類的軟體檢視,黑環的灰階大約是85,字元灰階大約是150,字元的背景大約是180。要看到獨立字元的邏輯是:忽略太黑的部分,將150灰階左右的畫素變成黑色,180左右的視同白色。

要怎麼作到呢?其實就是盡量切出字元所在的淺色環狀區域,排除太黑的環狀區域,再以淺色區域為基準,找到最佳的二值化處理方式,我們必須找到150180之間的最佳門檻值,須知85150的差距是遠大於150180的,要直接用程式偵測決策這個門檻就是技術成功的關鍵了!

排除黑環區之後的二值化與目標切割,有點像繁星計畫,如果讓偏鄉學生直接跟都會區學生比成績,因為教學資源的差距當然就很難進入頂尖學校了!所以就排除刺眼的黑環,讓150180的灰階做比較,字元就可以浮現了!

當然還是不太清晰啦!但是前文說明過,因為YFS這種商標數目是有限的,即使我們無法正確辨識那個糊成一團的S,只要YF可以確定,商標就一定指可能是YFS了!這個例子讓我們知道,二值化只是一個概念,因應狀況我們是可以有目的的操作它來達到目的的!

多數演算法專家都希望設計出可以適用於全圖的數學模式,不這樣做好像就解題解得「不漂亮」?認為過度因人設事不是好的數學模式?這一點我是很不認同的!因為我們人的眼睛辨識目標時並不會有此偏好限制,像上面這樣刻意忽略我們沒興趣的區塊,只「細看」我們知道有意義的區塊,那是視覺看東西的常態!

為何黑環必須忽略的邏輯也不是來自影像本身,而是我們對螺絲釘資訊的外在認知,我們如何能只用影像資訊的演算知道應該忽略黑環呢?不可能的!我在乎的是如何用數學與程式模仿人的整體視覺認知過程,以達到辨識的最終目的!對於虛幻的數學形式美感我是完全不在意的!你認為呢?

有誰推薦more
全站分類:心情隨筆 工作職場
自訂分類:不分類
你可能會有興趣的文章:

限會員,要發表迴響,請先登入