Contents ...
udn網路城邦
深度學習只是擇優錄取,我的OCR是因材施教!我贏定了!
2026/01/09 07:40
瀏覽203
迴響0
推薦10
引用0

前幾天我用這張圖介紹我的OCR辨識程序中,至少有五種不同特色的二值化策略,針對不同情況的模糊影像,總有某一兩種會特別有效地做出較正確的字元切割!我當然是把成功率最高的方式擺在前面,如果答案的符合度也就是信賴度夠高時,就可以直接結案,不必繼續用其他二值化策略了!

重點是:當某個二值化得到的答案信賴度不高時,我會繼續用其他二值化策略嘗試找到更好的答案!這就很像因材施教的教育體系,在常規的教學方式下學習效果不佳的學生,總有一些不同的教學方式可以讓學生得到更好的學習成效!最終就是有更多的學生可以達到學習的目標!如果你只能選一種教法呢?當然只能盡量找到適合最多學生的單一方式!成功率是絕對不如多元教法的!

現在大家都說深度學習是做影像辨識的最佳方法?但是我很不同意!原因非常多!其中之一就是不管你如何「深度」的學習,訓練出來的目標成果還是一個最佳的SOP標準程序!就是可以答對最多題目的「單一」公用解題方法!比較容易理解的比喻就是:你是在找一個「萬靈丹」!而不是對症下藥,用各種不同的藥,盡量治好病因各不相同的病!

在我的影像辨識策略中,當然也是會盡量建構出一個可以快速答對最多題目的SOP!但是當SOP達到它的極限,無法處理某些例外狀況時,我會有其他有異於SOP的辨識程序與策略來得到更好的正確答案!這就是深度學習所沒有的架構!DL所有的資料訓練目標就是一個單一的模型!它只能得到妥協之下的最大成功率,無法做到因材施教一個都不能少的!

所以大家就不要繼續對深度學習有太浪漫的期待幻想了吧?真實世界的影像就是會那麼多元複雜的!單一的SOP處理能力總是會有極限,到了一個程度就是顧得了東就顧不了西,所謂的順了姑情失嫂意,每個參數都不能一分為二去適應不同的資料,只能妥協取一個成功率最大的值,辨識率就會因此停滯在一個天花板,再也上不去了!

所以所有的機器學習都是可以很快達到似乎不錯的辨識率!但是接下來即使你投入十倍百倍的資料,千倍萬倍的算力,辨識率都很難再明顯提高了!這就是統計學技術的先天限制!深度學習的本質也不過就是用大量資料的統計回歸幫你算命而已!你聽過哪種算命的準確率可以高達95%的嗎?

那有沒有可能深度學習也進化到跟我一樣,有多種辨識策略呢?理論上當然是有可能的!但是他們的技術是把CNNDL完全結合的!這兩種技術需要的計算量都太大了!即使採用最精簡的架構,計算量都是OCR技術的數十倍!我可以用多策略模式是因為我的計算量少到一題擁不同解法算個好多次都還不會慢到讓使用者不滿

深度學習呢?僅僅是單一策略的模式已經速度慢到必須使用GPU加速才能不讓使用者抓狂了!如果他們也採用多策略呢?那輝達與台積電的技術大概都趕不上他們的需求了!以現實的硬體環境與成本考量,是不可能出現多策略模式的深度學習軟體的!所以CNN與DL真的很好罵!怎麼看它們都不是好的影像辨識技術!

有誰推薦more

限會員,要發表迴響,請先登入