
最近在嘗試替工研院的某實驗室辨識螢幕畫面上的字,這就是典型的OCR(Optical Character Recognition,光學字元辨識)的應用,要能辨識幾千個中文字還包括好多種字型,當然不是我這種小公司的人力資源能做到的,但是他們說因為電視螢幕影像太花,多數正常的OCR會辨識得不好,所以我拿出在馬路上辨識車牌的技術,盡量幫他們在複雜畫面中抓出像是字元的目標。
做好前處理之後總要拿真的OCR軟體實驗一下具體的辨識結果,上網查詢發現有好多免費的線上軟體,但效能與辨識率差很大!有個叫做EasyScreenOCR的網站好厲害,不必靠我的前處理,直接拿彩色圖都可以辨識得差不多了!速度還相當快,大概兩三秒吧?有些網站則是慢到需要幾十秒,辨識力還不見得好。
雖然我做的車牌辨識也算是廣義的OCR,但是我的字元目標範圍只有兩種字型(六或七碼車牌)的英數字,加起來不過是72個字元目標,扣除六七碼極度相似的字,大概就是四五十個而已。我的技術重點在於從任何距離角度拍到的車牌都要能盡量抓到,不需要辨識是幾千個中文字中的哪個字,所以那些OCR軟體內的關鍵技術我也不太懂!
我是好奇寶寶,不會就找人問嘛!最佳人選當然就是之前合作過的博相科技的陳總經理了!他們是精益科技(Plustek)的高雄子公司,專做各類文件(證件)辨識系統與專案的!電話中他說,自從我去傳授了我的辨識技術之後,這幾年他們主要的研發內容就是OCR軟體,以前無法自製很麻煩,每年都要跟國外公司買授權,現在可以自己做了!
但是真正無所不能的OCR,就是跟人一樣聰明,任何環境下出現的字都能辨識的通用OCR,真的很難做到面面俱到!所以他們跟我的經營方式很像,雖然已經有自己的OCR辨識核心,但不會高調標榜是全功能的OCR,直接販售通用的OCR軟體。只是用於特定目的的文件辨識產品或專案,每種辨識情境都會調整到最快也最準,這樣才能保證每個客戶都能滿意!我的車牌辨識核心也是只有一個,但是因應不同使用目的有三四種軟體。
談到辨識速度差異的問題時,他說其實多數雲端辨識背後都是用效能極佳的伺服器電腦作分散平行運算,所以感覺可以比買軟體裝在自家電腦辨識更快!但是很多客戶基於資安考量,需要辨識的資料影像是不能外流上傳的,所以必須客製化針對他們的辨識需求做出精簡合用的特殊OCR軟體,這樣才能在封閉系統之中還能以合理的速度完成工作。
他們之前(2016-2017)找我當顧問時,就已經是跟現在工研院的需求類似,我對於自然影像前處理到可以讓OCR易於辨識這一部份的技術很好,所以他們才會請我去傳授武功,面對各種專案產品,其實都是要做好針對性的前處理,或限縮辨識字元的範圍等等工作。我的傳統影像辨識技術比那些含糊不清的機器學習技術要明確好用多了!所以他們做出來的護照證件等辨識機器就超強的了!
當然電視畫面上的字也有它們的特性,如果可以針對性研究出最佳化的前處理,後端的OCR就可以辨識得又快又準,還不需要太多的運算時間。所以其實我們是可以合作替工研院的這個需求整合出最有效軟體的!端看精益科技公司覺得有沒有商機了!
很高興老朋友幾年沒連繫,大家的想法與做法都還是很相似,很好溝通!在台灣影像辨識的生產製造業中,我只是很小咖的公司,我堅持的技術內容方向又跟檯面上主流的所謂AI技術差距很大,雖然可以過活但總有些孤鳥的感覺?但是精益科技就不是小咖了!他們的影像辨識產品是行銷全球的!連他們都認同我,我就知道我不是那麼離經叛道的狂妄科學家了!
限會員,要發表迴響,請先登入













