2014年,陳偉殷在巴爾的摩金鶯隊的年薪是407萬美元,換成台幣超過1.2億。對大部分生活在台灣的人,這樣的年薪當然是仰之彌高,一輩子也賺不到陳偉殷一年的薪水。那陳偉殷自己覺得高不高呢?畢竟薪水高低是相對的,陳偉殷不會想跟我們比,他是處在MLB中。
我們試著來替陳偉殷比一比。首先,MLB球員的平均年薪約400萬美元,而陳偉殷拿407萬美元,比平均高,至少不算差。發完考卷,老師常也會公佈全班的平均成績,目的乃為了讓學生稍微了解自己的表現。一個班有幾十個學生,“學生考得怎麼樣?”考完後校長問。老師把全班成績攤開來,校長看得眼花撩亂。“可否告訴我學生大致考得如何?”校長再問。老師說出平均成績,雖才給一個值,不像之前給全部資料,校長反而有點概念了。
大學教授的薪水有多少?美國成年男子到底多高?狗能活多久?雖大學教授的薪水,按年資、按表現,有不小差異;美國人高矮差很多;狗的壽命也有變異,但經常人們只想有個初步了解,只要一個值。
如果要以一單一的值,來代表一些數據,平均值是常被採用的。平均值有很多優點,計算容易是其中之一。把所有數據相加,除以個數,便得平均值。即若有n筆數據x1, x2,…, xn,則(x1+x2+…+xn)/n,便為其平均值。那一班考得比較好?分數互有高低,難以比較。先把各班平均成績都算出來,再經過排序就有個譜了。不可比總分,因每班學生數不盡相同。每天中午吃飯到底花多少錢?也是算出平均即可。
平均值雖常被用來當數據的代表值。但在某些情況下,不見得會被覺得是最適當的代表值。李振昌(1986-),2008年9月,與美國克里夫蘭印地安人隊簽下職棒小聯盟(Minor League Baseball)的合約,到美國打天下。2013年7月升上MLB,擔任中繼投手,是第9位進入MLB的台灣選手。大聯盟,哇!年薪有400萬美元!國人替他高興。可惜沒有那麼高,2014年,他的年薪“才”約50萬美元。事實上,有好一些MLB的小牌球員,年薪並不到100萬美元。MLB年薪2千萬美元以上的至少有20位。是這些超級高薪球員,將平均年薪大幅拉高了。那除了平均值,有沒有其他代表值?
部隊裡有一個班的士兵,按高矮排成一列,班長要交待事情,站在前方中間的位置。怎樣是中間?如果班兵9人,那就對準第5人;如果班兵10人,那就對準第5及第6人中間。人們常會尋找中間值。當數據中有一些很大或很小的離群值(outlier),便常會考慮中位數(median)。將所有數據由小排到大,則正中間那個,就是中位數。若數據有偶數個,則並無剛好有位於正中間者,此時取最中間那兩數之平均當做中位數。中位數簡單講,乃將一組數據按大小分成兩半,它在中間。中位數較不會因少數幾個值的變動,而隨之起伏很大。當數據中有離群值時,中位數往往較平均值更適合當資料的代表值。例如,1,2,3,4,5,6,7,8,9,10之平均值及中位數皆為5.5;但若將10換成500,得1,2,3,4,5,6,7,8,9,500,則平均值增為54.5,中位數卻仍為5.5。雖僅改變一個值,平均值上升很大,但中位數卻維持不變。假設前述第二串數字,代表10個學生每天之零用錢(單位為美元)。有人說,不錯啊,你們每天平均有54.5美元左的零用錢。則其中將有9個學生面面相覷,不以為然。覺得那位富豪之子,每天500美元的零用錢,與他們何干?若改為你們每天零用錢的中位數為5.5,他們可能較認同。
再來看陳偉殷的年薪。407萬美元,比平均值400萬美元高一些,在2014年MLB排第307名。MLB球員年薪的中位數,為第375與第376名年薪的平均,顯然比平均年薪407萬美元,將低不少。
還有其他數據的代表值嗎?眾數(mode)是一個。班上郊遊要去那裡?同學們七嘴八舌,提了好幾個地點。如何決定?投票!看那一地點最多人支持。眾數概念就是這樣產生,為一組數據中,出現次數最多的那個值。設有數據3,1,4,3,5。則眾數為3。如同投票會平手,有時會有不只一個眾數。例如,若有數據3,1,4,3,5,4,則3及4皆為眾數。
以上我們給了3個數據的代表值,說不定你可想到其他代表值。只要能講出一番道理,便可當代表值。至於會不會被廣為採用?那就要看你定義出來的代表值,有什麼好的性質。好性質愈多,愈容易被接受。