Contents ...
udn網路城邦
只有科學不搞神祕,我的影像辨識是沒有「隱藏層」的!
2024/08/30 05:06
瀏覽447
迴響0
推薦5
引用0

剛開始做影像辨識時,真的越做越覺得人類的視覺智慧好神奇!譬如上例的51兩字是部分被遮蔽不完整的!只用OCRSOP強行辨識時,5會比較像31會比較像7,答案當然是錯的!但是一般人只要「定睛」一看稍微想想就會說是51了!每一個人的答案都不會錯!但我之前的「AI影像辨識」軟體卻總是笨笨的看錯!

所謂事出必有因,如果每一個人都會看出一樣的答案,那就表示一定有共通的辨識邏輯!但是那些邏輯,或說是智慧,或稱是小聰明,很像我們日常使用的很多電腦軟體,每個人的腦袋裡都有,我們也習以為常,無法詳細解釋為何做出這些判斷的詳細過程時,我們就稱之為「直覺」了!

我是受過科學訓練的腦袋,認定大家都會一致的直覺,就一定可以用科學原理解釋,再用演算法準確模擬表達為AI軟體的一部份!這就是我做各種影像辨識的核心理念!如上的案例我的解析是:如果那兩個字只用字模比對時不是很吻合,我就會檢視它們的「特徵」來做二級的複查了!

譬如7字的中軸應該是斜的,如上那麼直的1字中軸就不可能是7,而必然是1或T了!但按照車牌格式,它是七碼車牌的第四個字,一定是個數字不是英文字母,即使因為那個突出的擋泥板讓1字上端好像有個帽子讓他有點像7,但是它已經擁有唯一無可置疑的1字垂直線的特徵,我的軟體就可以跟人一樣判斷它是個1了!也因此在我的軟體中,很多一般OCR難以辨識或容易錯誤的狀況我都可以做出跟人的智慧更接近的正確判斷!而且都有明確合理的邏輯推理過程,不是只根據經驗統計猜的!

這些智慧小聰明要正確轉換為精準的演算法當然很繁瑣很不容易,所以我的車牌辨識軟體才會一做10年,至今都還每天有新的進步!我是以人類視覺智慧的解譯者自居,我認為AI影像辨識就是研究人類視覺智慧的逆向工程!我們不但希望最終能「模擬」出一樣的智慧,而且希望是基於踏實的科學研究理解,而不是囫圇吞棗的資料統計結果!

三人成虎」的故事聽過嗎?真實世界產生的影像資料是充滿雜訊、遮蔽與視角變形的!人的智慧知道十張不完美的目標照片也抵不過一張完全正確照片的影像!如上例我算出的字模符合度就是一種資料統計,得到的答案是37,但是一個明顯的字元特徵就可以推翻這個統計結果,而且這樣才是正確的「智慧」!統計結果只是參考答案,不是終極智慧!只有科學定理是一定不會錯的!

現在所謂的「主流」AI科技,MLDLCNN等技術的基調!就是從大量資料經過「統計」取得符合最多資料的妥協中值,他們就是極為忽視科學推理,只重視資料統計結果的「三人成虎」的技術了!不是沒用,但顯然被過度高估了!只相信資料統計結果,無視關鍵特徵代表的意義,常常會違背簡單事實的!絕對不可能做出像我這麼有合理判斷能力的辨識軟體。

當這些AI技術被質疑無法處理複雜辨識時,他們的答案居然不是更深入研究無法辨識或辨識錯誤的真正原因?而是要求更多資料,增加自己類神經網路模式中更多的「隱藏層」?就是用更大量的資料統計與嘗試錯誤計算,試圖找出「不問科學成因」但結果「剛好」很接近人類視覺判斷的軟體?別被下面這類複雜的示意圖騙了!比較複雜不表示比較有道理

看懂這些AI科技的真面目了嗎?他們只是一種迴避嚴謹科學研究,試圖偷懶蒙混達標的算命科技!如果真能達到目的也還好,但是請問你命理師用大量歷史資料統計預測的天氣比較準?還是氣象局根據實測資料與物理科學原理計算的結果比較準?也因此截至目前這種技術在影像辨識市場上的表現都還不如預期,廣告是不可信的,多去問問實際使用者的經驗感受吧!我每次聽到的都是抱怨甚至咒罵!因為他們總是很貴又不夠準確!簡單的AOI檢測還好,碰到自然環境的辨識就會常常荒腔走板,辨識率遠低於傳統影像辨識技術的!

我是科學家,迷信ML等技術的AI學者與玩家就是命理師!誰比較正統?誰開發的變軟體比較可靠比較準確先進?我的軟體中是完全沒有連自己都不知所云的「隱藏層」那種黑盒子的!每一個程式的細節我都可以用科學原理解說得一清二楚!看似神奇與否只是一個結果,過程明確合理才是科技穩定進步的基石,誰應該是影像辨識的主軸基調?大家可以用常識去判斷!

做個比喻給大家聽吧!一個在謀殺現場證據確鑿被抓個正著的殺人犯,依照ML的統計概念是有可能被判無罪的!因為有可能除了這次謀殺之外他的絕大多數過往紀錄觀感「資料」顯示他都是好人!殺人的資料只有一筆,顯示是好人的資料有非常多筆,經過ML的「學習」與「訓練」,怎麼看他是罪犯的資料都會被「他是好人」的資料淹沒的!也不可能會有足夠數量的「殺人」資料來翻轉這個訓練結果,沒這麼多機會殺很多人的!所以資料越多越能肯定他是好人!試問這種AI法院敢用嗎?人的智慧真的能無差別的用經驗統計模擬實現嗎?真的別傻了!

有誰推薦more

限會員,要發表迴響,請先登入