Contents ...
udn網路城邦
我的影像辨識沒有神奇秘技,只有合理準確的科學推理!
2026/01/22 04:18
瀏覽141
迴響0
推薦1
引用0

現在網路上的影像辨識資訊通常只會不斷的洗腦大眾,讓大家相信只要有夠多的資料,經過大量的嘗試錯誤演算(訓練)就會自行產生神奇的辨識能力?我根據我受過的科學訓練與知識是始終不敢信任這種說法與做法的!簡單的比喻就是:我想賺到很多錢,但是我不會覺得花很多錢買彩券是一種合理的賺錢方式

如果你相信呢?事實上很多人都會相信的!所以現在的詐騙事件才會那麼多那麼猖狂!多數人在半信半疑之下,還是常常會被說服:這個真實世界中,真的有穩賺不賠的投資管道?或許真的有吧?但是我絕對不相信自己的運氣可以好到能依賴這種千載難逢的機會謀生!

所以當我選擇要以影像辨識謀生時,對於這種無法精確掌握過程與結果的統計學為基礎的AI技術是不敢信任的!我怕投資太多研發成本在這種不可靠的方法上會讓我一無所獲,導致虧本倒店,我也確實耳聞很多公司就是這樣失敗了!也真的沒看過我的哪個競爭者用這套方法在我專注的產品議題上威脅到我!

我相信的是:既然一般人的腦袋作影像辨識都那麼厲害,我又相信所有人的腦袋一定不是胡思亂想用猜的!那就一定有可靠的影像辨識邏輯深藏在每個人的大腦裡面!我們每個人也不是天生就能辨識很多東西,是要靠逐步學習的!只是這些學習的內容不只是經驗的累積,也包括很複雜的邏輯推理加上科學知識!所以我只要認真解析自己的視覺認知過程,將它們數學化與程式化就可以做出很好影像辨識軟體了!事實也是如此發展的!

我知道機器學習派也不是完全天真的完全用統計學來找答案的!他們說的先驗知識(A priori knowledge)就是我說的與影像本身無關的獨立科學知識了!但是他們仔比重上太依賴經驗統計,太不重視科學知識與推理過程了!昨天與我們做工地汙染監測的廠商開會時,我就提到之前他們已經找到使用深度學習的團隊做出能用的成果了!我們跟他們的主要差異只是他們以統計為主科學為輔,我們是相反的!以科學為主軸,實在無法確定的模糊地帶才會使用統計猜測的概念!

如上的這個車牌辨識案例就可以說明這個做法與觀點了!一個模糊又歪斜的車牌,要用CNN也就是YOLO之類的方式找到不是不行,但是全圖搜索是很耗計算資源的!我們使用OCR,就是灰階→二值化→目標切割的方式計算量就少幾十倍了!缺點是碰到模糊狀況車牌中的U就怎麼都無法正確被切割出來了!

但是如果我們還是盡力處理能切割正確的幾個字元,完成之後再用已知的車牌格式去推理,就會準確的發現在某個很小的範圍內應該有一個缺漏的字!因為從物理上、科學上與法規上我們都知道那個位置一定有一個字元!此時我們用所有字元的字模矩陣強制比對,符合度可能都不到50%,但是選其中最高的那個答案正確率還是很高的!就是會得到一個U了!

簡單說,那個U就是我啟動統計學最高機率的概念猜測出來的!所以我也是有用到機器學習概念輔助我解決問題的!但是範圍那麼小,周邊資訊又已經如此確定,我猜錯的機率就非常低了!更重要的是:我這個比較消耗資源的統計猜測作為只在極小範圍內使用,所以整體的計算量不會因此暴增的!反之,你一開始用YOLO找車牌,計算量就已經大到要呼叫GPU來支援了!

重點就是:盡量使用所有確定已知的科學與法規知識作影像辨識的策略,一定是更可靠更精準也更有效率的!深度學習等方法並不是本身有何神奇之處?而是讓不懂那麼多科學知識,也不願意傷腦筋深入問題核心的懶人使用的捷徑!如果你需要的正確率只是七八成,這確實是個堪用的方法!但如果你需要達到95%辨識率呢?那幾乎是永遠都做不到的!

我相信任何方法都有其存在的價值,我們做影像辨識的目標也都是一樣很明確的!現在是八仙過海各顯神通,但是長久來看,各種技術方法必然會演化整合到最效率的方向!而我相信最終一定是偏向我目前的做法,而不是偏向深度學習的!大家可以拿張板凳過來看戲!我覺得我贏定了!

有誰推薦more

限會員,要發表迴響,請先登入