前兩天客戶新拍了一批三百多張的貨櫃碼的照片,拿我之前提供的軟體辨識,正確率約95%,就是有十幾張會無法辨識或有答案但是錯誤的意思!還加上七八張事實上沒有貨櫃碼卻辨識出貨櫃碼的照片供我研究。這就是我承諾的一定會持續研發精進的態度了!即使這位客戶因為公司大行政程序繁瑣採購尚未完成,我還沒收到任何一毛錢!但生意是一時的,科學研究是永恆的!我不會只看錢辦事的!
其實只經過一天的努力,不僅那些無中生有的貨櫃碼消失了,十多張辨識失敗的案例也只剩下三張!也就是以這個新的資料集來說辨識率已經高於99%了!前一批的三百多張最後調整的結果也是只剩一張無法辨識!目前新資料剩下的三張就是我這幾天要挑戰的不可能任務了!很好玩的!
如上例就是昨天的戰果!看似髒污磨損到不可能辨識成功的案例還是被我破解了!我不需要拿很多類似資料給甚麼深度學習模型訓練好幾天,就只是埋首研究我的OCR程序在哪裡漏失了走到終點需要的資訊,發現問題之後就是設計副程序去解決問題硬挖出模糊的資訊,就像醫生看病!仔細檢驗病灶,哪裡有病就開刀拿掉,或找到對症的藥吃下去!
這個案例困難的是至少有三個字元被汙染得很厲害,如上圖被紅框框起的字都是我的SOP無法辨識出來的!但是11個字有八個可以確認就足以讓我建構出整個貨櫃碼的樣貌了!我只要依據格式在已知的字元之間做地毯式掃描,以我已經知道的應有字元大小,做類似CNN的Convolution(卷積)運算就能找到那些很不清晰的字了!
當然這些例外處理也是有極限與風險的!模糊字再多一兩個我可能就無法建立正確的架構,或是我的補救程序在不該啟動時被觸發了,就會讓原本可以正確的辨識案例因為「吃錯藥」或「開錯刀」反而錯了!所以不是找到藥方治好這個特殊案例即可,還要回頭全面測試新流程是否會對其他資料產生副作用?
如上的四格漫畫應該可以讓各位讀者很容易的理解我的辨識邏輯與程序,這是一個絕對精密可靠的物理與數學演算法的分析與處理程序,沒有任何模糊的空間!跟機器學習或深度學習只是以大量資料與運算的經驗值做自我調整的演算概念是絕對不同的!
這很像最近的電視廣告詞說的:「(新冠肺炎)要篩不要猜」,ML、DL與CNN就是用來「猜」的工具,我的OCR技術才是可靠精準根據醫學知識建立的「篩」的技術!如果你想依賴DL等技術做出類似我的這種高難度辨識能力?理論上就不可能的!即使真的有渺茫的機會可以成功,你需要付出的代價也一定會讓你傾家蕩產的!走我的路呢?就是多讀書之後花一兩天思考分析問題,然後把程式寫出來就可以了!
事實上包括我自己在內,之前都有一個錯誤的觀念,就是「OCR擅長處理清晰的目標,DL與CNN等AI技術擅長處理模糊的目標」這是絕對錯誤的!因為CNN與DL等技術會讓模糊的影像目標位置更不精準,不僅運算量過多執行效率差,即使以找到最終辨識目的需要的必要資訊來說,效果也是遠遜於OCR技術的!OCR技術要提升辨識率只需要更多的合乎邏輯的補救措施,但是DL與CNN是一開始就將資料破壞降低解析度了!後續的處理程序再複雜都救不回來了!
所以不要再低估甚至汙名化OCR了!在影像辨識領域,OCR絕對是比ML、DL與CNN更AI也更高效率低成本的絕佳技術!應該汗顏退場的絕對不是OCR,而是ML、DL與CNN!
限會員,要發表迴響,請先登入