注音排序實作的技巧
2010/05/29 15:47
瀏覽4,976
迴響2
推薦44
引用0
之前發表的〈運用注音簡碼編製索引的技巧〉,只針對首字的注音簡碼做排序, 所處理的資料量較小。實用的注音排序( Phonetic sort),必須可處理較大的資料量,就不能只針對首字取注音簡碼,而應針對前兩字或前三字等取注音簡碼。
注音符號包括聲符、介音和韻符,共計37個,如果只針對首字取注音簡碼,資料只能分成37類;如果針對前三字取注音簡碼,資料可分成17,576類(即37*37*37),取三碼是取一碼的1,369倍(即37*37)。
要做好注音排序,最重要的是排序鍵的建立,排序鍵取得好,日後檢索才會方便。排序鍵取碼的原則可歸納成7項,如下所示:
(1) 若暱稱為英數,則注音碼就取英數。
(2) 若暱稱是英數後面接中文,則注音碼只取英數。
(3) 若暱稱是中文,則只按暱稱前三個字各取注音的第一個符號。
(4) 若暱稱是中文後面接英數,則只按暱稱前三個字各取注音的第一個符號。
(5) 若暱稱的中文少於三個字,則取碼長度就少於三個字。
(6) 若暱稱裡含有特殊符號,則略過該符號,只理會中文和英數部份。
(7) 若暱稱含注音符號,則照取注音符號。
在Excel中進行注音排序,主要鍵取「注音碼」欄,第二鍵取「暱稱」欄,兩者皆採遞增順序,如此會先按注音排序,若注音簡碼相同,再按暱稱的筆畫數。排序的果如下所示:
注音碼 暱稱
ani ani
Asian-A Asian-A_暫休筆 進修 讀您
beautiful world beautiful world
ez ez
Joson Joson
kinini~ kinini~
Nicolai GEDDA Nicolai GEDDA 牡羊座
Odelia Odelia
Orchis orchis.小捲3隻
PinkCottonCandy PinkCottonCandy
Posen Posen 英文老失
Rinka Rinka
shiaoling shiaoling
ti ti
-Uncle- -Uncle-
ㄅㄇㄕ 白面書生
ㄆㄉ 平淡
ㄇ 謎 otivia
ㄇㄍ *玫瑰*
ㄇㄍㄅ 魔鬼ㄅㄚˇ拔
ㄇㄒ 美賢
ㄇㄒ 梅心
ㄈㄉㄒ 風的心聲
ㄈㄌㄎ 法蘭客
ㄈㄘㄌ 鳳彩翎:周公旦
ㄉㄈ 蝶非
ㄉㄌㄈ 大羅府-命理地理館
ㄉㄏ 朵荷
ㄊㄒㄎ 通霄客
ㄋㄏㄐ 南寒寂
ㄋㄔㄦ 弄潮兒
ㄌㄆ 靈婆
ㄌㄌㄈ 戀戀 風塵
ㄌㄐ 廉婕《命理諮商師 》
ㄌㄑ 老齊
ㄌㄓㄋ 老宅男 / 法網第 3日一勝難求
ㄎㄒㄒ *開心小屋*
ㄎㄓ 克昭 - 音樂廳
ㄎㄘ ☆珂玼☆揮別眷戀
ㄏㄅㄒ 烘焙小魔女
ㄐㄉㄦ 金朵兒
ㄐㄐ 加吉:修电脑要小心
ㄐㄑ 澗 泉
ㄐㄧㄆ 江依萍
ㄑㄑㄌ 巧巧來了
ㄑㄕㄧ 秋山一夢
ㄒㄇㄐ 須彌芥子
ㄒㄌ 心 蓮
ㄒㄒ ~~小潯~~
ㄒㄖㄔ 旭日初昇
ㄒㄖㄙ 享榮塑膠有限公司
ㄒㄗㄖ 閒雜人等
ㄒㄧ 小奕(愛在宜蘭破曉時)
ㄒㄧㄘ 熏衣草
ㄒㄨㄌ 小武老師 - 教你網路行銷
ㄓㄈㄇ (祝福滿滿)
ㄓㄑㄨ 追求完美
ㄓㄒㄒ 鄭琇襄
ㄓㄓㄒ 真真小月巴月巴
ㄓㄕ 止善
ㄕㄌ 善良:::最難忘的人
ㄕㄍㄏ 水果皇后
ㄕㄐ 舒姜.瑪琳
ㄕㄖㄐ 善容居士
ㄖㄕㄐ 如瞬間即逝
ㄗㄋ 子甯
ㄘㄏㄒ 彩虹心靈花園
ㄘㄒㄧ 采芯雁
ㄙㄆㄓ 隨波逐流
ㄙㄌㄩ 嵩麟淵明
ㄙㄎ 俗客
ㄙㄩ 思于
ㄚㄇ ㄚ妙~ 冰情孤心.
ㄞㄉㄉ 愛的大大
ㄞㄌㄙ 愛麗絲維維
ㄧㄇ 逸名
ㄧㄉㄘ 有道才有德~天天素食,一起搶救地球
ㄧㄋ 鹰農
ㄧㄕㄑ ^"^亞莎崎是絕不搞笑的俏狐狸
ㄧㄖㄌ 楊若林(西N潘)
ㄧㄘㄐ 迎財接福
ㄧㄨ 因為~所以~
ㄨㄐㄐ 王絹絹
ㄨㄧ 【無 ★ 言】
ㄩㄑㄗ 漁樵子(酸棗仁)
ㄩㄓ 芸之
ㄩㄕㄨ 於是我愛了....
測試的資料共計87筆,但只有”美賢”和”梅心”這兩筆的注音簡碼相同,同為”ㄇㄒ”,但”美”字是9畫,“梅”字是11畫,故”美賢”排在”梅心”之前。
排序鍵若只取一個字,只適合數十筆的資料量;排序鍵若取三個字,可適合一萬多筆的資料量。注音碼的長度取三個字,重複的機會就會變少,在書面上檢索時,只要看注音碼即可。這種方便有效的檢索方式,有如英數資料之檢索,可是注音簡碼的排序鍵更為精簡;但前提是被排序的中文字都要會念,否則排序鍵將無法完整地建立。
注音符號包括聲符、介音和韻符,共計37個,如果只針對首字取注音簡碼,資料只能分成37類;如果針對前三字取注音簡碼,資料可分成17,576類(即37*37*37),取三碼是取一碼的1,369倍(即37*37)。
要做好注音排序,最重要的是排序鍵的建立,排序鍵取得好,日後檢索才會方便。排序鍵取碼的原則可歸納成7項,如下所示:
(1) 若暱稱為英數,則注音碼就取英數。
(2) 若暱稱是英數後面接中文,則注音碼只取英數。
(3) 若暱稱是中文,則只按暱稱前三個字各取注音的第一個符號。
(4) 若暱稱是中文後面接英數,則只按暱稱前三個字各取注音的第一個符號。
(5) 若暱稱的中文少於三個字,則取碼長度就少於三個字。
(6) 若暱稱裡含有特殊符號,則略過該符號,只理會中文和英數部份。
(7) 若暱稱含注音符號,則照取注音符號。
在Excel中進行注音排序,主要鍵取「注音碼」欄,第二鍵取「暱稱」欄,兩者皆採遞增順序,如此會先按注音排序,若注音簡碼相同,再按暱稱的筆畫數。排序的果如下所示:
注音碼 暱稱
ani ani
Asian-A Asian-A_暫休筆 進修 讀您
beautiful world beautiful world
ez ez
Joson Joson
kinini~ kinini~
Nicolai GEDDA Nicolai GEDDA 牡羊座
Odelia Odelia
Orchis orchis.小捲3隻
PinkCottonCandy PinkCottonCandy
Posen Posen 英文老失
Rinka Rinka
shiaoling shiaoling
ti ti
-Uncle- -Uncle-
ㄅㄇㄕ 白面書生
ㄆㄉ 平淡
ㄇ 謎 otivia
ㄇㄍ *玫瑰*
ㄇㄍㄅ 魔鬼ㄅㄚˇ拔
ㄇㄒ 美賢
ㄇㄒ 梅心
ㄈㄉㄒ 風的心聲
ㄈㄌㄎ 法蘭客
ㄈㄘㄌ 鳳彩翎:周公旦
ㄉㄈ 蝶非
ㄉㄌㄈ 大羅府-命理地理館
ㄉㄏ 朵荷
ㄊㄒㄎ 通霄客
ㄋㄏㄐ 南寒寂
ㄋㄔㄦ 弄潮兒
ㄌㄆ 靈婆
ㄌㄌㄈ 戀戀 風塵
ㄌㄐ 廉婕《命理諮商師 》
ㄌㄑ 老齊
ㄌㄓㄋ 老宅男 / 法網第 3日一勝難求
ㄎㄒㄒ *開心小屋*
ㄎㄓ 克昭 - 音樂廳
ㄎㄘ ☆珂玼☆揮別眷戀
ㄏㄅㄒ 烘焙小魔女
ㄐㄉㄦ 金朵兒
ㄐㄐ 加吉:修电脑要小心
ㄐㄑ 澗 泉
ㄐㄧㄆ 江依萍
ㄑㄑㄌ 巧巧來了
ㄑㄕㄧ 秋山一夢
ㄒㄇㄐ 須彌芥子
ㄒㄌ 心 蓮
ㄒㄒ ~~小潯~~
ㄒㄖㄔ 旭日初昇
ㄒㄖㄙ 享榮塑膠有限公司
ㄒㄗㄖ 閒雜人等
ㄒㄧ 小奕(愛在宜蘭破曉時)
ㄒㄧㄘ 熏衣草
ㄒㄨㄌ 小武老師 - 教你網路行銷
ㄓㄈㄇ (祝福滿滿)
ㄓㄑㄨ 追求完美
ㄓㄒㄒ 鄭琇襄
ㄓㄓㄒ 真真小月巴月巴
ㄓㄕ 止善
ㄕㄌ 善良:::最難忘的人
ㄕㄍㄏ 水果皇后
ㄕㄐ 舒姜.瑪琳
ㄕㄖㄐ 善容居士
ㄖㄕㄐ 如瞬間即逝
ㄗㄋ 子甯
ㄘㄏㄒ 彩虹心靈花園
ㄘㄒㄧ 采芯雁
ㄙㄆㄓ 隨波逐流
ㄙㄌㄩ 嵩麟淵明
ㄙㄎ 俗客
ㄙㄩ 思于
ㄚㄇ ㄚ妙~ 冰情孤心.
ㄞㄉㄉ 愛的大大
ㄞㄌㄙ 愛麗絲維維
ㄧㄇ 逸名
ㄧㄉㄘ 有道才有德~天天素食,一起搶救地球
ㄧㄋ 鹰農
ㄧㄕㄑ ^"^亞莎崎是絕不搞笑的俏狐狸
ㄧㄖㄌ 楊若林(西N潘)
ㄧㄘㄐ 迎財接福
ㄧㄨ 因為~所以~
ㄨㄐㄐ 王絹絹
ㄨㄧ 【無 ★ 言】
ㄩㄑㄗ 漁樵子(酸棗仁)
ㄩㄓ 芸之
ㄩㄕㄨ 於是我愛了....
測試的資料共計87筆,但只有”美賢”和”梅心”這兩筆的注音簡碼相同,同為”ㄇㄒ”,但”美”字是9畫,“梅”字是11畫,故”美賢”排在”梅心”之前。
排序鍵若只取一個字,只適合數十筆的資料量;排序鍵若取三個字,可適合一萬多筆的資料量。注音碼的長度取三個字,重複的機會就會變少,在書面上檢索時,只要看注音碼即可。這種方便有效的檢索方式,有如英數資料之檢索,可是注音簡碼的排序鍵更為精簡;但前提是被排序的中文字都要會念,否則排序鍵將無法完整地建立。
你可能會有興趣的文章:
迴響(2) :
- 2樓. 思于2010/05/30 20:04我投降了
實在很困難
讓年輕人去忙吧
一句話:
阿國太專業啦
佩服
注音排序是中文最實用的排序方法,而注音排序又以每筆資料取前三至四個字,每個字只取注音的第一個聲韻符號,這種方式有如英文取簡稱,第一次接觸這種排序法,也許會覺得複雜難懂,但真的蠻好用的,謝謝思于老師的稱讚。
王國良(阿國) 於 2010/05/31 22:39回覆 - 1樓. 魔鬼ㄅㄚˇ拔~食玩趣記2010/05/29 21:07厲害
厲害中文一般都採筆畫數排序,但最好用的應是注音排序,只是微軟對於注音排序的設計,仍然不夠完善,需要我們自己想辦法,筆者只是略盡棉薄之力,謝謝魔鬼ㄅㄚˇ拔格友的稱讚。
王國良(阿國) 於 2010/05/30 14:48回覆















