Contents ...
udn網路城邦
就是辨識幾個字嘛!會有多難呢?其實很麻煩的!
2021/07/16 08:27
瀏覽1,122
迴響0
推薦11
引用0

今天又是周五會與大成鋼公司線上例會,報告我的影像辨識工作進度。上面就是我的成果之一,F593C是與規格有關的字串,大致上是以環狀排列在接近邊緣區,字元上方朝外。這一部份上周已經有了成果,就是用極座標一一將字元投影成以外側為上方的矩陣進行字模比對辨識。

THE則是製造廠商的商標,這幾個字就麻煩了!因為大家可以細看一下,他們其實不是環狀排列的,基本上是像車牌一樣三字平行排列在一直線上,而且字元的上方是向內或向外不一定的!這個廠商還很耍帥的弄個斜體字?有些廠商的商標字元又不會斜?其實某些還根本寫在中央而非邊緣?

所以我要辨識出所有可能的商標字元,即使不考慮字元模糊的狀況,還是狀況多到一個禮拜都做不完!這個禮拜先搞定邊緣的字就好。上面這個案例我做了甚麼呢?先是辨識出規格字串,將規格字串擦掉後應該就是剩下商標了,如果他們是在圓周附近,那就先用極座標的概念轉正吧!

但是他們不是個別指向圓心的哦!所以旋轉時必須三位一體一起轉的,即使轉平了,我們還是不知道這幾個字是正的還是反的?那就正反180度都要轉,比對之後再看看哪一組比較合乎字模,比較像正常的字囉!那斜體字怎麼辦?不處理的話比對字模時產生的偏差至少多10趴!就很容易認錯字了!

單一個字要看是不是偏向一邊的斜體較難,但是三個字排在一起就可以用統計的方式,看看哪一個斜角會看到字元間最大的空隙,那就是斜體字的斜度了!知道斜度後就把它們照斜度反轉扭正即可,這一招我寫的書裡面也有講,基本上就是水平方向的扭曲變形啦!所以最後我的THE顯示的就不是斜體字了!

上面這張也是看似簡單卻折磨了我兩天!必須一個字一個字的旋轉到正直方向之後再進行辨識,需要的流程與規格字串及平排的商標字串都不一樣,等於是在蓋好的成屋裡面加蓋樓中樓,這就是影像辨識微妙之處了!用上面辨識THE的流程就是不行,用辨識前面F593C那種規格字串的流程也不行,還要能認知排除那三條輻射線,不能辨識成"I"哦!怎麼知道不是"I"?就是必須先辨識出三條(或六條)線的全圖對稱性,有夠複雜吧?

站在客戶的觀點,如果字看起來那麼清晰我還辨識不出來就很難交代了!可是如果仔細分析起來這是很複雜的「認知」過程,要因材施教面面俱到,好難啊!不過這樣才是我認為的AI研究!絕對不是一串公式套上去讓電腦跑三天就可以「學會」的!還好搞定了,漫漫長路有進度就好,準備度週末了!

有誰推薦more
全站分類:心情隨筆 工作職場
自訂分類:不分類

限會員,要發表迴響,請先登入