我不需要巨量資料訓練模型，但也需要夠多資料做調整！ - 鄉下老師

Top

所有文章 / 目前分類：心情隨筆|工作職場

我不需要巨量資料訓練模型，但也需要夠多資料做調整！

2026/06/13 20:26:54

迴響：0

推薦：19

引用0

前兩天委託我開發這個辨識核心的廠商非常緊張的跟我說我的軟體「錯誤很多」，他可能要面臨違約官司了？我聽得滿頭霧水？好像我犯了天大的錯誤？但是他之前其實只給了我55張影像來製作這個辨識核心，我當然就以那些資料做研究，也理所當然地做到55張都是百分百正確的！何來錯誤很多的評價？

溝通之後才知道，他們拿我的初版軟體用終端客戶新提供的1200張影像測試，結果有65張出現錯誤！即使這麼計算，辨識率1135/1200也接近95%了！以僅僅根據55張影像製作的辨識核心原型來說，第一版就有這麼高的辨識率算是很好了！

就像面對幾十個人的班級，我努力教學把每個學生都教到100分了，但不表示我的教學方法直接套用到1000人的學校也可以讓每個人都拿到100分的！因為很多我沒教過的學生會出現甚麼意外？我根本無從想像！但是如果讓我看到實況，知道他(們)為什麼學不會，我總是可以見招拆招順利解決問題的！即使是好醫生也必須看到病人望聞問切(檢驗狀況)之後才知道怎麼治療嘛！

所以我根本無法跟著他們起鬨緊張！只是冷靜地請他們把出錯的資料，甚至他們拿到的所有資料通通傳給我研究！他們又不會自己解決問題？不把問題交給可以解決困難的我？在那邊窮緊張甚麼？有人生病就請病人去看醫生嘛！一家人圍著病人乾著急窮緊張沒用的！如果看了醫生後醫生也說沒救時再開始焦慮吧？

果然資料傳來後當天就馬上分析解決了錯誤的那幾十張影像，辨識率就是百分之百了！大部分出錯的狀況大概就像上面的案例！我應該從左邊的圖上找出25個圓形的目標，但是背景那麼複雜，就是有可能剛好意外形成類似圓形目標的雜訊！只要讓我看到出錯的實際狀況，我分析它的屬性位置等等，找到它和正常目標的差異，調整一下安檢機制就可以輕易把它排除，答案就會都對了！

因為我總是經過系統整合商間接取得資料做研究的！這種問題也不是第一次發生了！乾脆說出來跟大家分享！我作影像辨識的方式跟那些機器學習派是不一樣的！我一開始並不需要幾千幾萬張的資料來訓練模型！只需要數十張影像就可以建立出基本架構的原型，也當然會做到數十張影像都能完全正確辨識！

但是這個原型還是必須經過夠多的資料測試洗禮，才會看出初始設計時沒考慮到的一些細節意外狀況！每一個錯誤我都可以分析原因，也都可以微調參數或建立新的例外處理來解決問題！通常沒測試到幾千張都不算成熟的產品！所以我的合作廠商是掀鍋蓋太早了！菜根本還沒煮好嘛！這是研發過程中的正常狀況，不必自己嚇自己的！

當然如果他們一開始就給我這1200張影像做研究，這些讓他們緊張的過程就完全不會發生了！可是我寧願他們先給我數十張影像做個開始，我就可以依據這些少量資料提出建議，調整拍攝的方式，以提高辨識率降低辨識難度後再大量拍攝！就是滾動式調整的意思，大家比較不會浪費資源！不要太早就敲定以很難辨識的方式拍攝影像。

準確度只是基本的要求！一如我一貫堅持的風格，執行效率(速度)還是我的產品很重要的特色！這是原始影像3088X2064約六百多萬畫素，設定辨識熱區四百萬畫素，必須篩選上萬個原始目標的辨識工作，我還是只需要0.1秒左右！當然也絕對不需要使用GPU的！

我就是要強調針對非常低效率的CNN與DL宣戰！想要節能減探愛地球，你就一定要選擇我的產品！AI影像辨識絕對可以不必以浪費資源與能源為代價的！用白話文說就是用我的軟體比使用CNN與DL開發的軟體便宜太多了！不要跟自己的錢過不去！

回應

全站分類：心情隨筆｜工作職場

自訂分類：不分類

上一則： Google AI是這樣形容鄉下老師的！但它真的認識我嗎？
下一則：你是走在AI的前面？還是跟在AI的後面？

你可能會有興趣的文章：

正式進入百萬畫素車牌辨識小於 0.1 秒的時代！
OCR與CNN技術的關鍵差異是「取得摘要資訊」的效率！
卵生胎生的我都沒有？只有一個私生的！我自己是難產的！
如果車牌本身就是弧形的怎麼辦？
即使是九死一生的艱難辨識，也不必以高運算量為代價的！
做個實驗讓你體會一下CNN的耗時浪費有多誇張！

限會員,要發表迴響,請先登入

	作家：鄉下老師