Contents ...
udn網路城邦
合理的「思考」過程才夠資格叫做AI吧?
2022/05/19 16:42
瀏覽838
迴響0
推薦7
引用0

我們公司主要是做OCR(光學字元辨識)的,但遠距拍攝的字元,在光線較昏暗或焦距略微失準時,甚麼奇怪的事情都會發生!如上例就會讓人相當扼腕!人眼看好像不難辨識,但是經過灰階與二值化之後,就是那麼一個偶然的誤差,讓H字元中間的橫線斷掉了!

OCR的基本假設是每一個被切割出來的目標(黑色區塊)是一個英或數字的字元,如果我們將上面的例子按此原則做下去當然不會得到WHSU這個正確答案,可能會辨識成:W I I S U。但是如果我就這樣做成軟體跟客戶狡辯說:沒辦法啊!影像不夠清楚嘛!你應該把光打亮一點,你應該把焦距對準一點,你應該換個更高畫素的攝影機等等,我的生意就難做了!

我可以告訴大家,多數的影像辨識廠商都是這樣跟客戶賴皮糾纏不清的!所以買過這類軟體軟體的人多半是一肚子氣,認為自己不但被詐騙,還被侮辱了?說好的AI人工智慧哪裡去了?根本辨識不準,還搞得好像都是買方的錯?乾脆改回到人工辨識都沒事!所以沒用過AI的人充滿幻想,用過的反而都失去信心了!

更誇張的是:即使上述要求客戶都做了,但是剛好拍攝時有隻蒼蠅飛過H的中央橫線?或是有一點油汙弄髒了一個筆畫?對於一般人的智慧來說根本不是問題的問題,我只用OCR概念的基本技術都會中招發生錯誤的!如果我的軟體「笨成這樣」我還好意思說我的產品很AI嗎?還是別丟人現眼,早點退出江湖吧!

現在大家吹牛AI時都太超過了!好像AI可以比人的腦袋聰明?其實市場上真正需要解決的影像辨識問題,多半只是軟體能否「勉強」跟得上人的常識判斷力?不要「離譜」就好了!如上的H居然會辨識錯?就會讓一般人都覺得很離譜了!明明很清楚啊?

多數人不知道,人腦的影像辨識有多聰明,現在的影像辨識軟體有多笨!越是強調使用AI(ML、DL與CNN)技術的軟體,越是無法精確解決這些意外例外的問題,事實上看起來就會越笨!我的軟體是相對比較「不笨」的而已,而且我很願意告訴客戶與大眾,我可以比較不笨的原因!那些用所謂AI的人則完全說不出來,也無法立即更新修正!

如果只以影像處理的角度去思考如何讓如上的意外狀況辨識對?我試過了!就像天災意外是無法用正常方式去預知處理的,最多只是事後補救!即使影像本身真的是錯了,我們也可以用影像以外的資訊方式介入,強制糾正影像處理的意外缺陷,譬如從旁邊的多數字元位置分布,估計H的兩個碎片其實是一個字,應該融合起來當作一個字看

這是作弊嗎?不是的!須知影像並不是我們要辨識的「事實」!事實是有一個H字元噴漆在貨櫃上面,我們要盡量設法認出那個H!如果因為影像模糊、有髒汙或有蒼蠅飛過,我們還是堅持要忠於真實「資料」?一定要找出影像處理辦法「修正」影像之後做出正確辨識?你就是死腦筋了!去當教授吧!

整合所有影像內外的資訊,模仿一般人做出正確的判斷,這就是我的日常工作了!我真正與普通人不同的只是我有辦法把這些一般人的「思考」過程加以程式化!一般書上或專業書上都沒寫的!只有我寫的書有寫!

如上例,我的軟體是會隨時自我檢視偵測哪些字塊是不是有問題?太小的看看是不是該與鄰近的色塊融合?太大的是不是應該做連體嬰的切割?所以即使這張影像是有「隱疾」的!可能會考倒其他OCR研究者,但是我的軟體可以若無其事地把它辨識正確。

類似機制在我的軟體中多不勝數!平常不會用到,但是每次都會自我身體檢查(快)!一旦發現病徵就會啟動自我修復機制,吃藥治病!這種自我檢視偵測發現問題的修復能力,我認為才是影像辨識可以達到高辨識率的關鍵!醫院能治的病越多,會死的人就越少!但是當然這些技術都很難跟機器學習扯上關係!我也很好奇他們(MLDLCNN)是如何處理類似問題的?你知道嗎?我求知若渴!我願意交學費請你教我怎麼做!

有誰推薦more
全站分類:心情隨筆 工作職場
自訂分類:不分類

限會員,要發表迴響,請先登入