Contents ...
udn網路城邦
作影像辨識要善用周邊條件
2017/05/19 07:40
瀏覽782
迴響0
推薦8
引用0

現在每周的例行工作之一是到高軟擔任文件影像辨識的顧問,除了會領回一些困難的辨識問題回麻豆研究,也會與對方公司的RD們討論他們手上進行的其他工作。RD們都有影像辨識相關的碩士學歷,基本功當然沒問題,甚至比我知道的影像辨識理論與方法還要多!

但是以結果論,當然是我解決問題的能力與效率高出一籌,不然他們也不會跟我續約,一作就是兩年了嘛!有趣的部分是:我的優勢並不是影像辨識技術、程式設計或數學特別好,而是我總是能注意到,並善用影像本身之外的環境條件來解決問題!

譬如有位RD用我開發的模組,寫程式抓到文件上的整排多個字元目標,也模仿我作車牌字元辨識的方式「一一」縮放投影到標準大小,再比對字模。他很納悶的是:為什麼我的程式怎麼比對,答案都是對的!他自己的程序跑出來就是偶爾會有錯誤的答案?

我告訴他因為我「作弊」!譬如十個成排的字,我縮放它們時不是分別作的,是找出十個字的中值或平均大小,然後硬性規定每個字都用這個字的比例縮放!為何如此?我反問他:你認為十個成排的印刷字「應該不一樣高」嗎?他恍然大悟!印刷字或許寬度不一,高度當然是一樣的!但是在影像處理過程中有時就是會有印刷油墨濃淡,或數位截斷誤差,讓你辨識出來的字元「好像」不一樣大?

你應該相信「字本來就一樣大!」還是你的影像辨識過程算出來的字元大小每一個都是對的?如果因為油墨印得有點偏差,你將字誤認得小了一點,再放大成標準大小,那不是就讓字變形了?當然有可能與標準字模不一樣!反之,如果不信任某個字比別的字小,還是依相同比例縮放,那誤差就只是油墨沒印好的一點點偏差,不會因此比對錯的!所以不要以為考試分數低一點的人就是笨蛋!大家都是人啦!

另一個也是讓RD們覺得很爆笑的案例是:某個文件欄位的字常常印得很模糊,要拿去用OCR辨識時常常認不出來!我說:那就不要辨識「文字」,把那個欄位可能出現的七八種字串當作「圖形」,作出整個字串可能的七八個圖形模子來比對就好了嘛!辨識錯誤的機率會遽降為零!還比原來程序簡單快速很多!

這跟我的「影像辨識」專業技術有關嗎?是我的常識比較豐富,也總是能整體考慮周邊資源有關吧?這讓我想起以前讀大學時有次柔道比賽,對手死命的不讓我抓他的柔道衣,柔道招式都是要抓對手的衣服摔的啊?抓不到衣服不就沒法攻擊了嗎?我突發奇想,居然去抓對方的褲管!一手一隻將對手摔個仰天長嘯,比賽立即一勝結束!褲子也算衣服的一部份啊?我沒犯規的!哈哈!

有誰推薦more
全站分類:心情隨筆 工作職場
自訂分類:教育學習

限會員,要發表迴響,請先登入