真實的目標未必最明顯，但一定會合乎所有物理條件限制！ - 鄉下老師

Contents ...

udn網路城邦

真實的目標未必最明顯，但一定會合乎所有物理條件限制！

2025/11/28 07:27

迴響0

推薦9

引用0

紙箱材積辨識的專案大概是我們開業以來邏輯最複雜的冠軍了！研發時程也比預定時間略為延長了！還好因為客戶自己的公司團隊就研究這個議題很久了！看到我們確實有做出比他們更多的技術突破，就願意多些耐心等待了！

這個計畫的目標是在任何狀況下，都能辨識出正確的紙箱長寬高！也就是正確的紙箱邊界與端點！如上的這個案例就可以體會到這個目標的難度！首先紙箱表面就會有很多印刷文字圖案形成雜訊！紙箱外的背景更是甚麼狀況都有可能！綠色較大的圓圈是最接近正確的答案，紅色點則是其他候選人！

困難之處是我們知道：物理上一定存在的正確紙箱邊界，未必是影像資訊上看起來最明顯的特徵！如上圖的錯誤小紅點會出現，都是因為環境雜訊讓它們看起來比真實的端點更為明顯！中央垂直線上的紅點是因為印刷邊界產生的誤導，左上軸線上的紅點則是受到膠帶切斷了箱邊的連續性所致！

所以此案的技術關鍵不只是影像資訊本身的處理，還包括物理現象的理解與分析！我們已經設計了很多與影像特徵辨識有關的演算法，可以盡可能辨識出所有可能的邊線與端點候選目標，就是包含上圖中的紅與綠點！如何判斷其中誰是正確的目標？就不是只看誰的影像強度了！而是他們物理上的合理性！

譬如箱子在物理上絕對是個立體直角的形狀，如果從正上方俯視就一定是個四邊互相垂直的矩形！隨著拍攝角度往較低角度傾斜變化時，每個箱邊的變化其實是可以用幾何學的觀點預期計算的！角度較低較平時，左上與右上的兩個軸線夾角就會變大！

而拍攝時手機本身的傾角是可以從手機本身的動態偵測模組得知的！所以你把手機打橫看時，畫面也會跟著轉向嘛！不必懷疑，只要是有這種畫面可以自動旋轉功能的手機，就一定隨時知道手機本身的傾斜角度！

所以目前我們正在整合的技術關卡就是讓這些候選目標接受物理合理性的組合與檢驗！重點不是某目標的影像特徵性較強就可以獲選！而是整組候選點的組合是不是可以合乎物理與幾何學的推理與限制！不是最強的應該獲選，而是最「合理」的整組答案應該獲選！簡單說：箱子的各個軸線與邊界之間的角度與位置都是有相關性的！如果某修點與線用幾何公式推算的結果互相衝突時，那就是使用的候選資料有一部份不正確了！

是不是覺得這已經超越「影像」辨識的範疇了？其實幾乎所有的影像辨識議題都會牽涉到真實物理世界的限制，我們也必須善用這些外界的非影像因素與限制，來幫助我們得到最合理也就是最正確的答案！譬如監理單位制定的車牌格式限制對我的車牌辨識就很重要！不然街景中的廣告文字都會被誤認為車牌了！

我們公司可以很快做好很多各式各樣的影像辨識產品，並不只是依賴對於影像資訊本身的分析能力而已！更重要的是我一直教導我的RD說：影像辨識是「物理」問題！因為我們自己看東西時也是這樣思考的！不管我們在視覺產生的平面影像上看到箱子是甚麼形狀，我們都知道它不是平面的！絕對是個立方型！也會遵守精確的視角變形公式！這些物理原則是比影像資訊本身更可靠的資訊！

以這個專案來說，沒有善用這些物理原理與限制，根本沒有機會成功！但是立體轉平面的幾何概念與計算當然不會比DL或CNN簡單！所以我們還在努力之中！但我們和客戶都是信心十足，一定會成功的！