Contents ...
udn網路城邦
這麼模糊的字也能辨識嗎?我也被迫使用CNN了!
2024/06/06 07:14
瀏覽750
迴響0
推薦6
引用0

為此忙了兩個禮拜可以說是努力到焚膏繼晷廢寢忘食的地步!好像又回到了當研究生努力寫論文的年代!即使已經作影像辨識研究超過十年了!這個發票辨識的題目仍然是我碰過最困難的一個!這種最常見的發票不僅用點矩陣印表機打印非常模糊,格式內容與字型也都千變萬化,目前僅作出一個大概堪用的辨識流程而已。但是從已看到的進度表現,應該會讓多數人感到驚艷了!

這種發票需要辨識的資訊有五個欄位,發票號碼是印刷最清楚的,以目前資料辨識率已達百分之百!其次是日期與買賣雙方的統編,辨識率已經逼近八成,最麻煩的是銷售金額,因為發票上會有非常多數字,我必須正確判斷哪個數字是他們要的售價!譬如收了多少錢?找回多少錢?或是如收費機台的編號或時間資訊等等,而且發票格式也很混亂,想辨識上面的中文字更是不可能的事!所以正確抓對金額的成功率目前只有六成多!還有待繼續努力!

做這個題目最大的技術突破點,是這麼模糊的影像直接使用OCR辨識是不可能的!辨識車牌時用OCR,如果因為模糊缺一兩個字就可以用推算缺字位置局部補字的方式補救!但是像這種影像,模糊到平均10個字都沒有一個字可以被OCR方法直接正確抓(切割)出來!所以不得不被迫採用較全面性的CNN搜尋目標的方式處理。堅持用OCR切割影像你只會得到一大堆不知所云的碎片!類似這樣:

我常常批評MLDLCNN等技術,原因是它們太耗時太沒效率了,百分之九十以上的實用影像辨識需求,都不必使用它們就可以做得更好還更快!如果凡事都無條件使用它們,不必要的計算太多,電腦太多,耗電量太多導致地球暖化加速,那就是整個地球的災難了!但這並不是說他們一無是處!確實有非用它們不可的時候!

像這個超模糊辨識的案例就非用CNN的概念處理不可了!基本方法還是必須做一些全圖的分析,概略鎖定行高與有字的位置,限縮到較可能有字的小範圍後再進行區域掃描(Convolution),大家可以看到:即使是模糊到人眼看都很吃力的字元,我還是可以穩定不遺漏的辨識!這就是CNN作得到,OCR做不到的事情了!

當然代價是一張發票的辨識時間會高達兩三秒!如果車牌辨識也這麼慢等著進停車場的客人就會抓狂了!人臉辨識如果那麼慢上班的人在公司門口就塞車了!現在的車牌辨識、人臉辨識與指紋辨識所以那麼快,原因就是「沒有用MLDLCNN等所謂熱門的AI影像辨識技術!這個事實大家必須知道,才有防止AI詐騙的抵抗力!

但是現在我終於也有了一個很好的具體實例告訴大家,甚麼時候才必須使用CNN等技術,就是當你必須辨識出這麼模糊的影像的時候了!就像非常昂貴的特殊藥物或特殊醫療方式,如果沒必要的輕症病人也都隨便濫用,那會怎麼樣?我們需要繳的健保費就會變成天價了!

我必須繼續上工了!祝大家上班愉快!每天都有很困難但是自己做得到的事情可以忙,就是最幸福的人生了!我不羨慕退休後閒閒沒事的人,換作是我可能會無聊致死的!

PS.考慮到個資的問題,我的這些圖片都會貼掉很多地方,讓大家還是可以分享到我的技術與工作內容!這是誰的發票當然不必知道,也不應該知道了!

有誰推薦more

限會員,要發表迴響,請先登入