Contents ...
udn網路城邦
請問機器學習如何學會較罕見的貨櫃碼格式?
2024/09/05 06:53
瀏覽377
迴響0
推薦6
引用0

有客戶正在測試我的貨櫃碼辨識軟體,上面這張是他從網路上抓到的圖片,貨櫃碼看似清晰卻辨識失敗,當然會讓我很不服氣,立即啟動研究程序。這個辨識核心也有近四千行程式碼,跟車牌辨識的流程是完全不同的!而且擱置沒玩大概超過一年了!嚴重考驗到我老人家的記憶力!

所幸經過一天的努力順利恢復記憶,證實本人尚未有記憶力衰退乃至老年癡呆的症狀!終於追蹤到辨識失敗的原因是:如上雙橫排的貨櫃碼出現機率很低,我手上舊有的資料也不過三五張,而且每一張的雙排字都是靠左對齊的!所以我就將搜尋規則訂成必須是:上四下七且靠左對齊的雙排字才是貨櫃碼!

但上面這張卻是例外,字組是上四下七沒錯,但是雙排字卻是置中對齊的!所以即使程式已經認出所有的字組,我的舊程式還是認定它「不是」貨櫃碼!所以就辨識失敗了!解決方式很簡單,增加一個「雙排字組也可能是置中對齊」的例外通關規則就好了!修改一行程式就永遠不會再錯了!

為什麼我必須將規則寫得這麼嚴格呢?大家看看貨櫃背面有多少文字就知道了!要在好像一篇文章的很多字元中盡快找出正確的貨櫃碼,依賴的就是對格式挑選盡量嚴格,但確定包含所有可能的貨櫃碼排列方式的規則!如果沒訂得很嚴格就會花費太多時間處理垃圾資訊,還會出現很多似是而非的答案了!

我的這種辨識概念就是所謂「專家系統」的作法!將所有我們知道的知識、理論、原理、定理與人為設定的各種規則,甚至可預知的雜訊形式,都寫進程式裡面做明確合理的判斷基礎!這其實是在機器學習熱門之前主要的「AI」系統建立方式!其實至今都還是遠遠優於機器學習的AI方式,只要將這些明確邏輯的關係都整理好不相衝突,做出來的AI絕對比機器學習系統更準確更可靠!專家系統製作的AI從來就沒有過時落伍!而且品質上永遠是可以全面碾壓機器學習AI的技術模式!

機器學習的神話是只要有「足夠」的資料,就可以學習出所有的智慧?事實上如果沒有經過科學家精確的邏輯分析整理,機器學習就只是統計學!他們的判斷只是類似「兩害相權取其輕」的最佳平衡點而已!對於事實原理不明的混沌資料可以迅速抓到一個大概的脈絡方向,但要說到精密準確呢?完全是他們做不到的事!給他們無限的資料,再加上無限多層的神經網路,使用最頂級的超級電腦,也絕對無法超越科學判斷的!

以上面的例子來說,如果我們確定知道雙排置中是合格的貨櫃碼,但是我們可以取得的這種案例卻極少,將極少案例混入巨量(常見的)資料來做訓練,還不加干預的話結果會是甚麼?這種特殊格式被判定是合格貨櫃碼的權重一定很低,很難被視為合格貨櫃碼!而且這樣經過資料統計「訓練」產出的軟體,也無從更正類似的誤判!

所以想「不傷腦筋」靠資料訓練學習就可以得到AI統計方式只是堪用而已,絕對不是甚麼高級高階準確可靠的AI!而且要收集大量「有意義」的資料其實是很貴,也很難的!如果你的資料剛好不包括罕見的某種格式,你就只能眼睜睜看著軟體犯錯,還不知道怎麼修改了!我不用機器學習,所以沒這種困擾!你還認為我的軟體不用ML所以比較落伍嗎?

有誰推薦more

限會員,要發表迴響,請先登入