Contents ...
udn網路城邦
OCR影像辨識最怕模糊!解決方式就是分分合合的技術!
2025/11/13 04:18
瀏覽86
迴響0
推薦5
引用0

影像辨識當然是用電腦做的!我們追求的目標應該是至少要跟人眼的判斷結果相似!但是電腦跟人腦特性不同各有所長,我們影像辨識研發者最尷尬的情況是程式軟體的辨識表現遠遠不如人眼的狀況!其中之一就是如上的略為失焦模糊的影像,對於人眼人腦來說根本沒有難度,但是我的軟體卻很難辨識成功!

原因就是我們要辨識正確字元必經的程序是用二值化切割目標,如果失焦時,字元的輪廓就是漸進模糊的,二值化門檻很難拿捏,很容易就會呈現破碎或字元沾連的狀況!如果你是使用CNN(類神經網路)的方式,就不會特別害怕這種模糊,因為CNN搜尋的方式是以整個矩陣的相似度來找目標的!

但是要使用CNN找目標的效率太差了!在事前根本不知道字元多大的情況下,如何設計特徵矩陣?來找不確定大小甚至變形程度的目標?不管怎麼作都是計算量極高到不符合時間與耗電成本的!即使YOLO的研究號稱已經大幅減少需要的計算量,但還是遠遠不如OCR來得有效率的!所以YOLO還是需要昂貴的GPU電腦,我的OCR就完全不用!如果你還是相信YOLO運算很快?效率很高?你就真的是被騙得很慘了!要找到目標不必非用CNN不可的!YOLO只是在CNN的框架前提下發展的技術,永遠快不過OCR的!

但如何在使用OCR的前提下解決這個模糊的問題確實困擾我很久了!還好的是現在的攝影機品質越來越好,自動對焦的能力極佳,這種失焦模糊的照片越來越少了!但作為一個影像辨識研發者,我總是要有好對策的!其實就是一些分分合合的補救措施!

在我們大致找到合理車牌範圍之後,就可以估計一個字元的大概寬高,也可以估計鄰近字元的概略位置,此時我要在小區域內捨棄OCR使用CNN的成本就不會太高了!我可以用已知大小的字元目標矩陣在可能的小範圍內掃描,很快就找到沾連字元中的兩或三個字!如上例中的689就是連體嬰三胞胎,我還是可以很快速的切割分辨出來!

簡單說,破碎的目標需要拼合,沾連的目標需要切割,如何正確的拼合或切割就是我需要研究的邏輯推理!過程或許繁瑣,但是都沒有超出我們的常識,一般人都能理解的!我喜歡大家都能理解,也因此願意信任我的影像辨識技術!所以才會如此坦承透明的介紹我的技術精要!

當然我也很想凸顯出我與機器學習派影像辨識技術的巨大差異!他們是根本沒有故事可說的!因為不管他們的軟體辨識成功或失敗,他們都無法明確追蹤分析原因的!因為那是電腦依據資料自行統計的結果,根本說不出科學上的原理原因!當然那種研發成果也是無法穩定優化持續進步的!所以我才不敢用嘛!真的採用機器學習的人其實都是很尷尬進退兩難,整天被我消遣欺負的!

有誰推薦more

限會員,要發表迴響,請先登入