找到目標只是影像辨識的第一步！難的其實在後面！ - 鄉下老師

Contents ...

udn網路城邦

找到目標只是影像辨識的第一步！難的其實在後面！

2025/08/08 10:54

迴響0

推薦2

引用0

YOLO是什麼？

３分鐘了解YOLO的演進，可以應用在生活中哪些地方！

如上的網路資訊會讓大家有一種錯覺，以為影像辨識技術已經非常成熟進步了？但奇怪的是：當各行各業想找到一個可以精準辨識自己工作所需特定目標的軟體時，卻很難找到？想找專業公司製作都很艱難？即使找到AI影像辨識公司專案製作，最終都很難取得辨識率夠高且價錢合理的軟體！為何如此？

其實就是大家誤以為「找到目標」就是影像辨識了？其實那只是一個開始的步驟，真正困難也才能合乎使用者需求的更重要步驟是：如何辨識目標的準確內容？大家可以仔細看看這些YOLO之類的廣告都只是強調他們「找到目標」的能力，其實沒有介紹「如何辨識內容」的技術！所以只是半套的影像辨識而已！

要知道目標「是一個人」是比較簡單的層次，要知道「這個人是誰？」是真正更困難的層次！一個完整可用的影像辨識軟體當然需要完整做到以上兩個步驟的！但是目前你看到的網路資訊都只會談第一個步驟！所謂的CNN或YOLO等研究僅止於這個找到目標的層次！

我們是專門研發製作影像辨識軟體的公司，能賣的東西當然包括找目標與辨識內容，即使YOLO真的很好我也很會用，距離靠影像辨識技術完成可用產品的距離還是很遠的！但是走完後半段路的技術是五花八門各式各樣，每個辨識議題都不會一樣的！所以也不會有甚麼通用的文獻可以統整介紹。

以我最成熟的產品車牌辨識來說，如上圖右上方的紅框內幾個小圖，就是說明了從找到車牌之後到獲得正確車號的過程！找到一個歪斜的車牌你必須知道它是歪斜的，也必須知道如何將它扭正，對比度不好時還必須做一些影像強化處理，最終還要建立字模，比對字模分數判別是甚麼字等等。

當一切步驟都完備可以正確辨識之後，你還必須擔心辨識速度夠不夠快？因為大部分的影像辨識應用都必須是即時反應的！如果辨識一張車牌超過一秒鐘，停車場入口就會聽到一些抱怨聲；超過兩秒呢？就會聽到很多髒話了！即使速度夠快了，如果你的辨識軟體必須搭配很貴的電腦硬體才能運作，那也會讓買家嫌貴就乾脆不要AI了！

所以市面上的影像辨識應用還無法普及的障礙，不是YOLO那些技術不夠好，而是影像辨識技術的後半段很難用ML、DL與CNN等熱門技術有效實現！勉強可以做出來的軟體也必須搭配很貴的硬體，就是需要使用GPU啦！現在大家都擔心AI搶工作，這辨識的後半段研發工作就是AI很難搶走的工作了！需要學習甚麼才能做我現在做的事呢？絕對不是ML、DL與CNN，而是更好的物理觀念與數學技巧！