5 關於學測級分的探討(二)
百分位數是什麼?在九年一貫數學課程綱要(底下簡稱九年課綱)裡,此題材被置於九年級(即國中三年級)。屬於國中的數學,總不該太難吧!即使沒學過的讀者,顧名思義,大約便能想出百分位數“大概的”意思。只是不曉得算不算知易行難,當學生實際拿到一組數字,想求百分位數時,卻常落入左支右絀的窘竟,最後開始懷疑書上的定義是否恰當。由於屢使師生感到困惑,因此會有學者建議將此題材移至高中,也就不足為奇了。但倒也不必以鄰為壑,中小學數學課程,畢竟篇幅很有限,凡難以交待清楚的概念,釜底抽薪,寧可都不碰,應才是較佳的作法。
九年課綱在附錄一“分年細目銓釋”(底下簡稱細目)中,於9-d-04認識“百分位數”的概念項下,有5點說明,其中首2點為:
(1) 百分位數和中位數、四分位數一樣,可以表示某資料組在總資料中的相對位置。學生應能自資料之相對累積次數分配表求出百分位數。
(2) 知道百分位數通常用於分析總次數多的資料,避免在資料數少的例子中,做百分位數的教學。
細目中對於“中位數”,在9-d-02的說明中,有:
中位數是將資料排序後,前後各切一半的中間位置資料值。…中位數會使落在兩邊的資料呈現出某種“平衡”狀態。…中位數則是個數的平衡。
本來資料(或說數據)不一定只包含數字,但在談百分位數及中位數時,涉及的資料都須全是數字。又在課綱的附錄四“標準用詞與解釋”(底下簡稱用詞解釋),在“百分位數”項下是:
各筆或各組資料的相對位置,表示有百分之多少的資料比該筆或該組資料的數要小。
於“中位數”項下是:
第50百分位數,通常表示比這筆或這組數大和比這筆或這組數小的資料各佔一半。
看到這裡,你可能以為,跟你所想的差不多,百分位數的意思本該如此,豈會有困惑?
首先,百分位數可否不落在所給的數據中?由細目(1)中說“某資料”,以及用詞解釋中說“該筆或該組資料”,可見不行。即任一百分位數,皆須為所給數據中的某一個。又可否有不為整數的百分位數?譬如,能說第37.8百分位數嗎?因細目中既然指出百分位數,可“表示某資料組在總資料中的相對位置”,才好奇相對位置可否表示的細一點?九年課綱的定義中沒說不行,而也的確可以。
依用詞解釋,假設有一組數據1,2,…,100,則分別為第0百分位數,第1百分位數,…,第99百分位數。即數字k為第k-1百分位數,k=1,2,…,100,共有100個百分位數。至於中位數,依用詞解釋,因是第50百分位數,即為51。只是比51小的數有50個,果真占一半;但比51大的數有49個,占49%,並不到一半,與細目及用詞解釋中,所述均不合。怎會如此?事實上,對任何一組取離散值的數據,數據中“永遠不存在”(而非“通常表示…”)一個數,以使“比此數大和小的數各占一半”。
例如,對數據1,2,3,4,5,一般人會認為3是中位數。但依用詞解釋,1,2,3,4,5,分別為第0,20,40,60,及80百分位數。就這5個百分位數,其他的一個都不存在。這組數據的中位數不存在,可能違反不少人的直觀。當數據的個數為奇數且全相異,則由小至大排列後,我們總以為正中間那個為中位數。另外,對偶數個全相異的數據,如1,2,3,4,5,6,或視中間那兩個,即3及4(3與4看起來“地位”相同),或視中間兩個的平均,即3.5(=(3+4)/2),為中位數,可能是不少人的認知。但由於第50百分位數為4,因此只有4為中位數,3與3.5皆不是。我們全給出來,1,2,3,4,5,6,分別為第0,16.66…,33.33…,50,66.66…,及83.33…百分位數。只是被判定為中位數的4,當然不會使落在它兩邊的數(分別有3個及2個),呈現個數的平衡。
再看一例。假設有1,1,1,1,1,1,1,1,1,及2等10個數,即9個1與1個2。則第0百分位數為1,第90百分位數為2。就此2個百分位數,其餘百分位數皆不存在。因此當然也沒有中位數。
定義不周詳、違反直觀,且常有若干被認為該存在的百分位數不存在,是九年課綱所給百分位數之定義,被認為不太妥的幾個原因。不過依九年課綱的定義,雖有些重要的百分位數可能不存在,但一旦存在便唯一。這算是其定義的優點。附帶一提,由於在九年課綱中,百分位數必唯一,所以能有的百分位數之個數,最多等於數據的個數。
底下給一個九年課綱之外,常被採用之百分位數的定義。
對屬於區間[0,100]的任一實數k,第k個百分位數,以pk表之,表數據中,至少有k%個小於或等於pk,且至少有(100-k)%大於或等於pk,而中位數即p50。依此定義,不但允許百分位數不落在所給數據中,也允許非整數的百分位數。
我們來重新檢視之前的幾個例子。
先看數據1,2,…,100。區間[k,k+1]中的任一實數皆為pk,k=1,…,99。至於(-∞,1]中的任一實數皆為p0,[100,∞)中的任一實數皆為p100。共有101個百分位數,各百分位數皆不唯一,且整數k同時為pk-1及pk,k=1,…,100。又[50,51]中的任一實數皆為中位數。值得注意的是,依九年課綱所得到的第k百分位數,為我們的第k+1百分位數。
其次看數據1,2,3,4,5。(-∞,1]中的任一實數皆為p0,且p1,p2,…,及p19皆為1;[1,2]中的任一實數皆為p20,且p21,p22,…,及p39皆為2;[2,3]中的任一實數皆為p40,且p41,p42,…,及p59皆為3;[3,4]中的任一實數皆為p60,且p61,p62,…,及p79皆為4;[4,5]中的任一實數皆為p80,且p81,p82,…,及p99皆為5;[5,∞)中的任一實數皆為p100。所有第0,1,…,100的百分位數皆存在,至於中位數不但唯一,且就是為3,此符合一般人的直觀。在此例中,有些百分位數唯一,有些不唯一,且一數可同時是幾個不同的百分位數。至於對1,2,3,4,5,6,經類似的討論,可得[3,4]中的任一實數皆為中位數。這結果尚令人滿意。至於其餘百分位數,就留給讀者自行求出。
最後來看數據1,1,1,1,1,1,1,1,1,2一例。(-∞,1]中的任一實數皆為p0,且p1,p2,…,及p89皆為1。又[1,2]中的任一實數皆為p90;p91,p92,…,及p99皆為2,且[2,∞)中的任一實數皆為p100。101個百分位數皆存在,且中位數p50為1,仍符合一般人的直觀。
我們給的百分位數之定義,應算是比較恰當的,至少定義沒有不合邏輯處,且會存在的百分位數較多。當然,也可略修改我們給的定義,即限制百分位數皆須屬於原來那筆數據中。只在原數據中決定百分位數,這想法有其道理道理。現就以1,2,3,4,5那筆數據為例。此時p0,p1,…及p19皆為1;p20可為1或2;p21,p22,…,及p39皆為2;p40可為2或3;p41,p42,…,及p59皆為3;p60可為3或4;p61,p62,…,及p79皆為4;p80可為4或5;p81,p82,…,p99,及p100皆為5。
讀者不難查到更多與上述兩種之一有些類似、不太一樣,或看不太懂在寫些什麼之百分位數的定義。例如,維基百科上寫的是:“百分位數,統計學術語,如果將一組數據從小到大排序,並計算相應的累計百分位,則某一百分位所對應數據的值,就稱為這一百分位的百分位數。”如果不懂百分位,就不知百分位數是什麼了。
至此,你可能會覺得百分位數的概念,並不像原先以為的簡單了。的確如此。對連續型的數據(如區間[150,220])較無問題,只要依九年課綱細目裡,找出“前後各切一半的中間位置”185,便得到中位數了。只是中學數學裡,在討論百分位數時,通常面對的是離散型的數據,並無法“前後各切一半”。當初將百分位數此一題材,放進國中數學的眾學者,可能未曾經過深思。遺憾的是,雖有點複雜,且意義不是那麼明確,但大考中心或許不以為意,才會依百分位數,將學測的總級分及各科的級分,皆訂出5標。因此其後會衍生出若干問題,也就不奇怪了。大考中心的百分位數之定義為何?我們稍後再說明。
有些讀者可能會以為,我們太吹毛求疵,因所舉的例子,數據的量都不夠大。九年課綱在前述細目(2)中,不早就強調“百分位數通常用於分析總次數多的資料,避免在資料數少的例子中,做百分位數的教學。”至於學測各科的到考生,都有10萬人以上,屬於“總次數多的資料”,因此百分位數,大可放心地使用。真的是這樣嗎?