快速簡略的第一印象也是可以用程式產生的! - 鄉下老師 - udn部落格
鄉下老師
作家:鄉下老師
文章分類
    Top
    快速簡略的第一印象也是可以用程式產生的!
    2026/03/03 10:44:14
    瀏覽:948
    迴響:0
    推薦:13
    引用0

    我們進行的紙箱體積辨識專案已經進入收尾的階段,客戶提供的正常手拍的影像辨識正確率已經超過96%了!少數還會出錯的案例之一是類似上圖,我的RD主導開發的程序會辨識箱子的三個軸線與六個邊線,但因為過程相當複雜又有前後相關性,偶爾會因為某個線段的小錯誤導致連鎖反應,最終答案就錯了!

    如上圖左,我們追蹤到此案例出錯的病灶是右邊的垂直邊線有些歪掉,原因是這些線段通常是由某個我們用某些邏輯找到的起點開始延伸的!如果起點不正確,就有可能越走越遠偏離事實了!當然我們已經發展了很多迂迴交叉補救校正的機制,不然辨識率就不可能是96%而是只有七八十而已了!但這個案例就是極少數的漏網之魚了!有沒有可能把它救回來呢?只要多挽回幾隻迷途羔羊,辨識率就是99%了!

    在我的RD努力期間我就已經看出某些錯誤在委託人的觀點是很難接受的!因為一般人的第一印象就可以看出箱子右邊的垂直邊線很明顯!為什麼我們如此複雜精緻的演算法反而會迷路呢?有沒有可能我發展出跟一般人的「第一印象」類似的功能?完全跳脫辨識箱子(或任何物體)的邏輯,直接抓出影像中較明顯的長直線段呢?

    以上圖來說,所謂明顯的長直線段,就是箱子的三個軸線與六個邊線中較明顯的幾條線,加上地板磁磚的交界處產生的直線了!上圖中就是我獨立開發出來的,快速找出長直線段的成果了!如果我的RD開發的基礎演算法出錯的線段(如上例),剛好是我的長直線段程式有找到目標的那條線,那我的第一印象辨識結果就可以適時糾正這個因為演算法「想太多」而產生的錯誤了!

    當然這個獨立的長直線搜尋程式不能佔用太多影像處理的時間,不然就會喧賓奪主了!它畢竟只是產生一些輔助參考資訊的協助工具而已!如果要花上跟主程式差不多的時間?那就必須考慮要不要使用了!所以如上所示,我的這個程式只用33毫秒,只是完整辨識程式214毫秒的15%,還算可以接受的範圍!如果能用多15%的時間挽救3-5%的辨識率?應該是值得的!

    上例就是這個想法成功救回失敗案例的實例之一!因為我的長直線段搜尋程式是不會考慮太多細節,忠實呈現簡略明顯有延續性直線的程式,所以答案會更接近人類視覺的直覺判斷!等於讓天真的小孩直接告訴大人:國王有沒有穿新衣?如果我找到的某條長直線可以符合箱子軸線或邊線的邏輯,那我的直線就會比RD算出的直線更可靠了!可以拿來糾正錯誤了!

    這就是整合兩種不同觀點與重點的演算法辨識結果,加以綜合判斷的聰明作法了!我覺得最重要的是:我們可以明確解釋我們為何如此做的所有物理過程與數學操作的細節!所以如果還是出錯時,我們還是可以繼續追蹤分析失敗原因,最終總是可以想出補救方法的!以前說愛滋病是絕症,現在不是都可以治好了嗎?就是靠精準的科學研究,絕對不是深度學習可以做到的成果!

    這就是我們與所謂深度學習派的信徒們最根本的巨大差異了!他們不論用甚麼數學模式去訓練他們的辨識流程,都無法準確知道機器為什麼要做這樣的判斷?就像老闆聘用了一位絕對不向老闆報告,或根本無法向老闆報告研發內容的工程師!當機器的判斷錯誤,或不如預期時,他們除了調整資料調整訓練參數全程重跑訓練過程之外,絕對沒有對症下藥精準修理辨識機器的可能性

    也就是說:只要你是用深度學習的模式開發出來的辨識機器,就完全沒有分析錯誤原因,找出故障原因,加以準確修復故障部位的可能性!大家想想:像這種牽涉到那麼多物理環境因素的複雜辨識專案,如果我們用深度學習來製作?那會多麼恐怖?我們會無法回答任何一個辨識錯誤的原因,當然也無法準確修復,每一次辨識核心的「改版」,都必須打掉整座摩天大樓重蓋一座新大樓!還不能保證那個錯誤新機器一定可以辨識成功,因為你也無法掌握辨識的過程嘛!

    還好!我們「不是」使用深度學習的團隊!所以現在可以開始輕鬆享受研發的成果了!任何錯誤都可以準確分析跟客戶報告事故原因!知道生病的原因當然就可以準確地研發出補救的措施了!接下來我們跟委託我們的客戶日子都開始好過多了!如果他們是委託深度學習的團隊研發這個辨識軟體呢?真正的噩夢才剛剛開始!問題永遠無法保證解決,燒錢速度則保證不會減慢

    回應

    限會員,要發表迴響,請先登入