Contents ...
udn網路城邦
由confusion matrix(混淆矩陣)看商標的混淆認誤性
2019/11/30 12:10
瀏覽58
迴響0
推薦0
引用0

confusion matrix(混淆矩陣)是一種在統計、機器學習很常用的分析技術,在機器學習領域主要用途是要評估一個識別引擎、演算法的效能和好壞,又因為近年來機器學習處理的資料量越來越大,再加上識別引擎可以是神經網路、深度學習演算法,所以要說confusion matrix能用在AI、大數據、神經網路、深度學習領域中也不為過。

 

confusion matrix的基本結構和我們平常在玩的井字遊戲很類似,其垂直軸向是代表真實狀況,而水平軸向代表猜測結果,(相反也是可以,但是wiki一類的網站大都用這樣的安排方式,為了方便讀者們去閱讀相關資料,就依照大多數人的習慣來說明),並把相關的說明放在最左方的行和最上方的列,所以一個最基本的confusion matrix可表示成以下圖表1的形式。其中表中(真實)和(猜測)都是為了讓讀者不會弄錯軸向意義所加的,如果讀者不會弄錯就可不加。

 

圖表1

(真實)

label 1

(真實)

label 2

(猜測)

label 1

真陽偽陽

(猜側)

label 2

偽陰真陰

 
數一數英文版維基百科關於confusion matrix的頁面,這個表格可以衍出20種的評估量、評估方法,而其中有些評估量在不同的領域中又有不同的稱呼方式,算是真的使用起來可以非常地變化多端,不過本文只是簡單地用這表格來進行現象的說明,不太會深入說明這些評估量如何計算以及有何限制,想深入了解的讀者可去嘗試由本文最下面的參考文獻去進行較入探索,但要先聲明一點,本文無法對於任一篇參考文獻的內容正確性進徰保證,若要疑問煩請多方查證。


先看以下這個例子,

 

圖表2

鹿

鹿

31

78

 

其代表的意義是10(3+7)個(真實的)鹿牌產品中,有3個被認為(或猜測為或識別為)是鹿牌牌品,卻有7個被認為是馬牌牌品;相對地,對於9(8+1)個馬牌產品中,有1個被認為是鹿牌牌品,有8個被認為是馬牌牌品。


在最理想的情況是這個表格中,險了左上到右下對角線以外的數字要全部都為0,也就是這10個真實的鹿牌產品中每個產品都要被識別為鹿牌產品,而這9個真實的馬牌產品中每個產品都要被識別為馬牌產品,也就是如底下圖表3的表格才是最理想的情況。

 

圖表3

鹿

鹿

100

09

 

在現實生活中,是可以接受並預期非左上到右下對角線的數值為非零值的情況,但是就表2的情況則是有值得進一步去深入研究的情況,因為它反應出鹿牌產品中有 7/(3+7) = 70% 的機率被誤認為馬牌,其中這個 70% 就是 false negative rate(偽陰性率),附帶一提的是,代表馬牌產品被誤認為鹿牌的false positive rate(偽陽性率)是 1/(1+8) = 11.1%,而會造成這樣的結果之可能性理由不少,例如

1.「識別引擎太差,一直發生把鹿牌誤認為為馬牌」(工程學角度);

2.「受測者受到威脅利誘而發生指鹿為馬的情況」(歷史成語角度);

3.「真實資料(樣本)本身已過於近似」(商標角度,例如雙方都是用線條形成的圖形商標)。

 

反正本文中又不是教人如何設計識別引擎,也不討論民刑法中的威脅利誘,所以第1和第2積情況都假裝不存在,而只討論第3種情況以節省時間和篇幅。

 

假設鹿牌的商標比馬牌的商標還要早取得,並且許多(例如1000)個不同的受測者(消費者)也做出類似和圖表2的結果,這時馬牌的商標(或申請案)已發生商標法學理上之反向混洧誤認了,因為這時受測者大都把後來的馬牌當成是正統、正牌看待,但是商標法可沒有在管正向或是反向混洧,依商標法第30條第1項第10款不准馬牌的商標註冊[註1],或依商標法第48條第1項[註2]和第54條[註3]規定,撤銷馬牌的商標註冊(異議流程);或依商標法第57條第1項[註4]和第60條[註5]規定,撤銷馬牌的商標註冊(評定流程);當然,上面這些段落所提到的1000或是70%只是因為好打字和恰巧而被選出來,並沒有說一定要達到這些數字才行,也許統計學者、專家才是適合告訴您這些數字要到少達到多少才算數。

 

為了更容易說明商標這種先搶先贏的概念,可以分別把圖2的「鹿」和「馬」這二個標籤(label)換成「早」和「晚」,形成以下的圖表4,
 

圖表4

31

78

 

另一方面,此時如果消費者已經非常認識鹿牌和馬牌的商標(之圖案),而讓那個商標達商標達到著名商標的程度,(雖然消費者可能壓根沒有想到他們口中的那個商標是由二個商標所組成),此時鹿牌商標的持有者並不合適主張商標法中著名商標的權利,因為那個商標會達到著名商標有絶大的原因是因為馬牌商標持有者的供獻,若是扣除馬牌商標這些日子的供獻,單單要依賴鹿牌商標自己的努力而達到著名商標的成就,無疑是要打上一個大大的問號。


其實confusion matrix除了一對一單挑這種形式外,還可以一口氣分析多個商標,而形成類似如以下圖表5的形式

 

圖表5

鹿
鹿

 

為了方便起見,圖中的數字並沒有填出來,但和圖表3類似,最理想的情況就是只有左上到右下對角線上有非零數值,對角線以外的數值全都是零,這樣才能彼此間楚河漢界,大家井水不犯河水相安無事,對了,在這個圖中、例子中的各商標的註冊時間並不一定按照鹿馬豬牛羊魚雞之順序排列。

 

因為這樣的圖表會隨著「label」數的增加而變得非常地巨大且不易閱讀(例如字太小或是看錯欄位),所以就可以把馬、豬、牛、羊、魚、雞這些label用一個「非鹿」label來代換,變成可以形成如下圖表6的形式。

 

圖表6

鹿

鹿

鹿

139

鹿

117128


這篇文章在某種情況算是上一篇文章「由雲門舞集看商標著名性」的延伸,主要是要說明為何不能讓受測者(消費者)識別出特定(或自己的)商標是一件要重視的事件,因為在若是使受測者識別不出來的話,此時在confusion matrix所會呈現出來的情況是由左上至右下對角線上的數值會變小,但是非對角線上的數值會上升,成為已存在某種混淆誤認(或減損識別性)的受害者或是始作傭者。


至於上一篇文章為什是叫受測者直接去回想商標名字或是商標所有者的姓名,而不是像上面的confusion matrix一樣,事先給受測者一些(2個或2個以上)選項(即label)再讓她、他去挑一個內心所認為的那一個最佳選項,原因很簡單,這樣比較有挑戰性,因為這樣做時受測者並沒有被提示過任何的資訊,自然就永遠不可能發生「後見之明」的情況,雖然說這些被提示的資訊中僅有一小部份才是真正有幫助的,但是對於著名商標這類特別的族群的東西,它就是註定要通過較嚴格的考驗,而不僅只於一般的考驗。

 

至於要把上一段中所提到沒有label的資料轉換成從confusion matrix的結果呈現方式也不是什麼困難的事情,就用類似圖表6的表示方法,只要受測者回答的出來的答案不是那個特定的商標自把它歸到「非我族類」的label,而不用細究受測者是回答出什麼阿貓、阿狗,或是「不知道」的答案。

 

當然,只拿特定一個label給受測者進行猜測,最後會得到一個少了大半資料的confusion matrix,如下面圖表7所示,

 

圖表7

鹿

鹿

13

鹿

117


站在機器學習這類工程性問題的角度而言,它的識別引擎和所使用的內部參數是已經在開始實驗前就已經決定好的,所以就算在另一個時間再生出原本表格中欠缺的如下圖表8所示之最右邊資料,也一樣能組合出一個完整的confusion matrix,所以這種日後再補上其它欠缺資料是可接受的,且是樂於採用的,畢竟在一個主要label的識別效果已經不佳時,就應該快點去研究新的識別引擎。

 

圖表8

鹿

鹿

9

鹿

128


然而這樣的手法用在活生生的受測者身上坦白說是有些不合適,雖說就學理上只要能好好地控制取樣方式,讓挑選出來的受測者間無差異並都能代表母群體,且每個受測者在不同時間下所進行的判斷的皆應該是一致地,但光去確定這些前題或是細節是否達到就夠累了,所以能不要這樣就不要這樣做,做不到就只能降低這些因素的影響,不然能怎樣,誰叫人有時候是不理性而難以預測的。


不過,如果只是把圖表7當成第一階段試驗,以判定是否一個特定商標的產品是否被受測者所認識或是接受,之後再用圖2來進行1對1的pk賽(第二階段試驗),來判定是否二個商標之間有混洧誤認的情況,因為這時第二階段試驗是不同於、獨立於第一階段的試驗,(例如受測者不同,及/或受測時間不同),且第二階段本身擁有完整地資料,自然就不用管在組合圖7和圖8資料以形成完整confusion matrix之時,是否帶入了未知的偏差影響了。

 

最後,工程界有句名言,「Garbage in, garbage out(垃圾進,垃圾出)」,雖然confusion matrix這概念和它的一些評估量看起來很吸引人,讓人忍不住想快點去嘗試,但實驗前想想一下實驗背後的合理性,不要陷入數字的泥濘之中。

 

 


=========================
註解

 

[註1] 商標法第三十條第1項條文節錄:

商標有下列情形之一,不得註冊:

十、相同或近似於他人同一或類似商品或服務之註冊商標或申請在先之商標,有致相關消費者混淆誤認之虞者。但經該註冊商標或申請在先之商標所有人同意申請,且非顯屬不當者,不在此限。

 

[註2] 商標法第48條第1項完整條文:

商標之註冊違反第二十九條第一項、第三十條第一項或第六十五條第三項規定之情形者,任何人得自商標註冊公告日後三個月內,向商標專責機關提出異議。


[註3] 商標法第54條完整條文:

異議案件經異議成立者,應撤銷其註冊。

 

[註4] 商標法第57條第1項完整條文:

商標之註冊違反第二十九條第一項、第三十條第一項或第六十五條第三項規定之情形者,利害關係人或審查人員得申請或提請商標專責機關評定其註冊。


[註5] 商標法第60條完整條文:

評定案件經評定成立者,應撤銷其註冊。但不得註冊之情形已不存在者,經斟酌公益及當事人利益之衡平,得為不成立之評定。

 


=======================

參考資料

 

 

[1] Wikipedia,「Confusion matrix」,網址:https://en.wikipedia.org/wiki/Confusion_matrix

[2] Ching Tien,「心理學和機器學習中的 Accuracy、Precision、Recall Rate 和 Confusion Matrix」,網址:https://medium.com/@ChingTien/心理學和機器學習中的-accuracy-precision-recall-rate-和-confusion-matrix-529d18abc3a

[3] I code so I am,「淺談機器學習的效能衡量指標 (1) -- 準確率(Accuracy)、精確率(Precision)、召回率(Recall)」,網址:https://ithelp.ithome.com.tw/articles/10228941

[4] YC Chen,「如何辨別機器學習模型的好壞?秒懂 Confusion Matrix」,網址:https://www.ycc.idv.tw/confusion-matrix.html

[5] Tommy Huang,「機器學習統計方法: 模型評估-驗證指標(validation index)」,網址:https://medium.com/@chih.sheng.huang821/機器學習-統計方法-模型評估-驗證指標-b03825ff0814

[6] RedHerrings,「統計術語小教室:你說的是真的嗎?」,網址:https://talkecon.com/statistics101/

[7] 林澤民,「看電影學統計: p值的陷阱 」,網址:http://blog.udn.com/nilnimest/84404190

[8] David Huang,「P-值已經死了嗎?莫須有罪名的最大受害者!」,網址:https://taweihuang.hpd.io/2017/01/11/poorpvalue/

 

你可能會有興趣的文章:

限會員,要發表迴響,請先登入