Contents ...
udn網路城邦
越通用的辨識軟體跑得越慢,辨識率越低,你知道嗎?
2021/10/16 09:02
瀏覽761
迴響0
推薦2
引用0

這張網路流傳的影像中有「兩隻」綠繡眼小鳥,正中央有一隻很容易被看到,我試圖找第二隻時,也一直找不到,看了答案才看出來!所以我們知道「完整」的影像辨識是很困難的,以人的大腦視覺能力,你或許一兩秒鐘就可以找到圖中央的那隻小鳥,但是要找到另一隻就要花上十倍以上的時間都未必找得到!

如果你想設計出一個影像辨識軟體辨識這兩隻小鳥,應該也是一樣的,用較簡單高可能性的條件搜尋,譬如在圖的中央區域附近找,假設可以正面看到鳥的兩隻眼睛與鳥喙,就可以很快地找到明顯的目標。但是如果想找到較不明顯的目標,譬如側面的鳥?那就必須搜尋更多特徵,考慮更多特徵組合的方式等等,程式就一定會跑得很慢了!

我的車牌辨識程式也一樣的!同一個程式模組我有三種辨識模式,一種是不管辨識時間多慢,就是竭盡我的技術努力找到最邊緣模糊歪斜的目標,另一種則是在我可以維持合理辨識率的情況下,盡量快速完成辨識,就是簡化搜尋特徵辨識的條件,第三種就是折衷了!三種模式分別用於靜態手拍的照片、道路飛奔的車牌、以及停車場慢進慢出的車牌,也分別以這些模式發展出三種軟體產品。

所以即使是已經演化幾億年的生物視覺也會因時因地制宜的!每一種生物,每一種情境,其實我們腦袋中的辨識「軟體」都會有不同流程的!我們想找任何東西時都會考慮很多影像之外的資訊,來協助我們簡化辨識流程,不然腦袋眼睛就會累死,還會因為反應太慢被其他生物淘汰(天擇)掉了!

所以如果我們就是想開發出一種「通用」的影像辨識軟體,不必靠外部提示環境條件,就只靠著影像本身的資訊,巨細靡遺地隨時辨識出所有可能的目標?這是不切實際的!但很不幸的,這就是目前主流派的AI影像辨識專家努力的方向!主要依賴的技術是CNNMLDL

如果他們可以發展成功,那就可以傲視幾億年來所有動物演化出來的視覺了!但是如果真有這種邏輯的可能性,我認為早就在某種生物,最可能就是視力好腦袋又聰明的人類身上出現了!但是顯然人腦並不是那樣運作的!我們在任何狀況下找任何東西時,都會「想很多」!

譬如是白天或晚上?是室內或野外?是找貓或找狗?每一個這種情境條件都是影像之外的資訊!我們都會用來簡化不必要的特徵搜尋,強化最有利在那種情況下找到目標的特徵辨識。我們根本不是完全依賴影像資料分析來完成辨識工作的!所以你用再多的影像「訓練」你的辨識軟體也不會有好結果的,因為跟真實人類視覺相比,這樣還是「資訊不足」的!

即使你真的可以經過百萬千萬張的影像訓練出鉅細靡遺的辨識能力,就像人的完整辨識能力一樣的廣泛,但是沒有充分使用情境條件簡化流程提高效率的話,你的軟體就會慢到不行,如果用超級電腦來硬上,就是超級的費電不環保

總之,在我的觀點,CNN+ML+DL所建構的所謂AI影像辨識軟體開發概念,從理論基礎起點上就不合理!目前其實也已經深陷泥潦了,很少聽到他們順利完成了何種辨識目的的專案?大家最期待的自駕車影像辨識就等了十幾年!還在等!反之,我盡量模仿視覺判斷的研發方式則是無往不利,開業至今還沒一個失敗的案例,都是在期限內完工達標的!

我與主流派不同的觀點是:

1.          我會毫不遲疑的參考影像外的資訊條件來決定要找那些特徵?並協助辨識判斷。

2.          我不會嘗試做通用或全面的辨識軟體,有範圍才可能有穩定的高辨識率

3.          我敬重膜拜模仿的大神是人的認知能力,而不是數學模式!

我已經證明了我的方式很有效,可以快速開發出很多實用的影像辨識軟體,如車牌辨識、證件辨識與閱卷軟體等等。AI影像辨識專家們其實還沒證明他們可以做到我能做的這些事情!這是鐵的事實!

有誰推薦more
全站分類:心情隨筆 工作職場
自訂分類:不分類

限會員,要發表迴響,請先登入