Contents ...
udn網路城邦
只要你看得出來的字我就不會放棄!
2021/09/15 16:22
瀏覽809
迴響0
推薦6
引用0

大成鋼公司的主管態度真的很正面,我每天如此辛苦工作,有了研發突破當然會很想發表獻寶,讓自己高興一下,也讓讀者眼睛一亮,分享參與高科技研發的喜悅!不像某些神經過敏的大公司,硬是要我簽下甚麼保密合約?如果人家看看我的「論文」就可以複製我的成果,那每家藥廠都可以做出完全一樣,最高品質的疫苗了!

他們甚至會一起關注我的部落格,跟著我和讀者一起歡呼!這讓我的工作變得特別快樂!心情好了,研發態度自然更積極,腦筋也變得特別聰明了!

上面那個很誇張的辨識成果是今天才做成功的!從開始做影像辨識時,我就一直很崇拜人眼辨識的智慧,也一開始就認定人腦辨識的過程一定跟電腦一樣,有明確的邏輯可以依循。這個解讀人腦的過程我已經做了好多年,也只是剛摸到邊而已,但想想前幾年完全摸不著頭緒的挫折與茫然,現在真的太幸福了!

這麼模糊的辨識第一個需要克服的問題是:不管你窮盡任何二值化切割的技術處理影像,出來的字元都還是破碎不堪的!如下圖一個2居然放大來看是這樣的!那人是怎麼看懂這個字是2的?因為我們可以利用抽象的思考能力,輕易越過字元的破碎狀態,用字的概略形狀範圍將碎片組織起來,再當一個字去辨認!

所以我必須建立如何將目標合理分組成為單一字元區的邏輯,此時當然必須知道字元分布的形式與格式等等。譬如我必須知道YTSA270的意義?它們可能的字串內容組合等等。YTS是製造商的商標,如果我知道有哪些廠商,就不必每一個字都比對所有英文字母,不僅可以節省時間,還可以降低「猜錯」的機率,辨識正確率不就提高了?這些也是人的智慧之一。

譬如資料中顯示三個字母的製造商只有下面幾個:"BBI", "CYI", "HYN", "JDF", "JLX", "SHS", "THE", "YFS", "YTS"。那就表示:如果我碰到三個字元的字組,第一個字只可能是:BCHJSY這幾個字母其中之一,我只要比較這六個字母誰比較像?選第一名就好了!

甚至我辨識完成了一個字串,但是資料中並沒有這個廠商(字串)?但是三個字元中有對了兩個?我就可以進一步看看那個辨識錯的字元有沒有次佳的字元選項,讓整體符合度還是夠高,我就可以直接改答案了!作弊嗎?有點像,但一切都是為了找到最正確合理的目標!依據經驗法則我猜錯的機率就很低了!

這些撇步(技巧)很多都跟影像處理毫無關係,但確實就是我們人比較能做出正確辨識的原因,這就是我說的AI研究了!如果太自我設限,甚麼資料能用?甚麼不能?或是太依賴電腦的統計運算,要讓電腦自行「學習」出這種複雜的認知過程?我應該沒這麼長的命看到ML實現夢想的一天了!

有誰推薦more

限會員,要發表迴響,請先登入