代表值是讓人對數據有些初步的概念,其實並未提供太多資訊。像是光知道成績在平均(或中位數)之上或之下,當然很粗糙。有人想進第一志願,若只知成績比平均高,這個資訊遠遠不夠。在國中基測成績通知單上,遂提供考生的PR值。
PR值是什麼?乃指百分等級(percentile rank,縮寫為PR),主辦基測的“心測中心”(全名“國立台灣師範大學心理與教育測驗研究發展中心”)之解釋是:
國中基本學力測驗分數通知單上所提供的PR值,是先將該次測驗所有考生的分數(指的是量尺總分)排序後,依照人數均分成一百等分,該生大約會落在第幾個等分中。PR值代表該生的成績在100人裡可以贏過的人數,即超過多少百分比的考生。例如:若PR=87,代表在100人中,其分數可以贏過87個人,輸了12個人(自己本身也算1人,所以總共正是87+12+1=100人)。所以PR值最高為99,最低為0,PR值愈高,表示該生的測驗表現在越多人之前。若某位考生的PR值為95,表示這位學生的分數,高過參與該次測驗約95%的考生。
基測在民國102年後走入歷史,民國103年起,升高中高職,分成免試入學及特色招生考試兩種管道。在國教署民國103年7月22日公告的“103學年度特色招生考試分發入學成績提供及計分方式說明”中說:
為提供各就學區考生充分選填志願訊息,本考試分數通知單將提供“分區PR值”,先將該區所有考生的總分排序後,依照人數均分成100等分,該生大約會落在第幾個等分中。因為每區考生人數不同,所以不同區的分數通知單PR值是無法互相比較的。
要進大學所考的學測,採級分制。各科取前1%考生成績的平均,除以15,當做級距。所以學測在乎級距間分數差距要相同,但不在乎每級分人數所佔百分比不同。因此不同科目之同一級分並無法相比較。而要進高中所考的基測,採PR制,在乎每一PR值人數的百分比要相同(大約1%),但不在乎PR值間量尺分數的差距不同。兩者何以作法如此迥異?猜想只是因學測與基測,乃由兩批不同的“測驗專家”負責,背後其實不見得有什麼大道理在。
底下分別來檢視上述心測中心及國教署的說明。首先,心測中心以在100人中,分數贏87個人,輸12人,來解釋PR=87的意義,聽起來很簡單,但並不很恰當。心測中心只考慮理想狀況:共100人,且1至100分各1人。如此每個分數的PR值皆可明確的定義:1分的PR值就是0,…,100分的PR值為99。此一方面忽略有同分的情況,一方面忽略人數較少的情況。例如,假設總分為100且考生有100人,其中1至87分各1人,其餘13人皆88分。則PR值0至86都沒問題,1分的PR=0,…,87分的PR=86。但88分的PR值是多少?事實上,依心測中心的解釋,從87至99,皆無法定義PR值。88分雖贏過87人,但並沒輸12人(根本連1人也沒輸),所以PR值不是87,自然也非88,89,…,99。心測中心提供一個屢屢(只要有同分)無法定義某分數之PR值的解釋,似未深思熟慮各種狀況。另外,若人數少於100,譬如說只有5人,分數各為20,40,60,80,100。則100分贏4人輸0人,相當於在100人中贏80人輸0人,亦即100分給不出其PR值。其餘80分,60分,40分,及20分,也皆無法定義其PR值。因此心測中心對PR值之解釋,看似簡單,其實反而會更讓人迷惑。簡言之,PR值只適用在大型考試,如此成績才夠密,即使有幾千人的考試都不見得適用。
其次,國教署官方的公告亦有問題。對於特色招生考試,因分區都是各自招生,主辦單位遂提供“分區PR值”。但好心地提醒,因每區考生人數不同,所以不同區的PR值無法互相比較,卻是畫蛇添足,且自暴其短了。不同區的PR值的確無法互相比較,但主要原因是考生不同,而非人數不同。民國103年,計有基北區、桃園區、竹苗區、中投區、彰化區、嘉義區、台南區,及高雄區等8個就學區,辦理特色招生考試,以遴選性向、興趣與能力符合其特色課程之學生。由心測中心負責特招的統一考試工作。8個區,有較都會也有較偏鄉者,差異性不小。就算報考人數很接近的兩區,各自算PR值,也無法比較。這道理就如學校裡舉行一場統一命題且統一閱卷的考試,即使同一年級各班人數都相同,並不難理解,各班的同一名次,成績可以相差很多,各班人數相同完全沒用。
由上討論知,不論負責考試的心測中心,或上級指導單位教育部國教署,似乎都缺乏基本的邏輯概念。令人擔心的是,心測中心並非以傳統的依答對題數來計分的方式,而採“多少考生答對多少題”,換算出量尺分數。且強調“量尺分數,就是採用適當的數學轉換,將靠近中間的量尺,稍微加以壓縮,並將兩端的量尺稍微拉長開來,如此所得的分數量尺,更能精確反映出考生間不同的能力差距。”看似用心良苦,只是若未具備基本的邏輯概念,那種複雜的轉換,能有辦法做到很符合邏輯,其實相當令人存疑。
表1給出民國102年,最後一屆基測部分PR值的一些統計。這一年基測報名人數究竟多少,至少見到兩個不同的版本。在國教署當年4月30日公告的“102年國民中學學生基本學力測驗報名人數統計”中,給出總報名人數為171,699人。但在心測中心6月19日的“102年國中基測各測驗學科計分與寫作測驗閱卷工作說明”的新聞稿中,所給之考生總數為171,681人。由於後者時間較新,故我們就採考生有171,681人。
基測共考5科,另加上國文作文,每科量尺分數最高80分,作文最高12分,因此滿分為412。報名人數的1%為1716.81,即約1,717人。將全部171,681位考生,按量尺總分由最高排至最低。則第1,717名,其量尺總分便為PR99之最低分。但因會有同分,所以PR99的人數有可能超過1,717人,即超過1%。實際上,由表1知,403分以上為PR99,共有1,758人,約佔1.02%。PR98之最低分就是第3,434(1,716.81×2=3,433.62,四捨五入得3,434)名的量尺總分,為399分。因有同分,所以累積了3,857人,約2.25%。即量尺總分399至402為PR98。由於同分的因素,所以每一PR值的人數皆不太相同,所佔百分比大致是1%上下。以PR93為例,至此累積人數百分比約為7.46%,而至PR94累積人數百分比約為6.02%。因此PR93的考生,約有1.44%(=7.46%-6.02%)。相當於在100人中,贏92.54(=100-7.46)人,輸6.02人。經四捨五入後,表贏93人,輸6人。會不會有那一PR值的人數超過2%?有可能!如果某一量尺總分,有很多同分便可能了。這時下一個PR值便會跳過。反過來,假設沒有表1,但知道某生在總共171,681位考生中,量尺總分排在第10,422名。因他前面有10,421人,而10,421/171,681=0.06070…,約6.07%,即約6%,故知其成績約為PR94(=100-6)。但若PR94的人數已超過1%了,或如果跟他同分者很多,導致若他的分數併入PR94,將使PR94所佔百分比過高,則他的量尺總分便會落在PR93了。以表1為例,至PR94累積人數百分比為6.02%,該生名次排在6.07%,雖僅差一點點,卻只能列入PR93了。表1顯示,累積人數百分比,小數部分有00,有02,但也有大到45者。由此得知,在無表1的情況下,若僅知成績排名,只能約略知道其PR值。又雖然PR值的設計,本意是讓每級分的人數約佔1%,但由表1知,仍有不小變異。如PR93的人數約佔1.43(=7.45-6.02)%;PR69的人數約佔0.73(=31.03-30.30)%。
MLB的30支球隊,共有750位球員,2014年,陳偉殷的年薪407萬美元,排在第307名,由306/750=0.408,40.80%,即約41%,故他的年薪在MLB裡,大約為PR59(=100-41)。這樣當然比僅知道年薪高於平均更明確。
PR值之外,還有百分位數(percentile)。此與PR值的概念接近,但仍略有不同。百分位數可說是從中位數推廣出來的。
對k=1,2,…,99,第k個百分位數,以pk表之,表數據中,至少有k%小於或等於pk,至少有(100-k)%,大於或等於pk。中位數即p50,又p25稱為第一四分位數(quartile),p75稱為第三四分位數,而中位數為第二四分位數。依上述定義,我們來看之前有20,40,60,80,100等5個分數,無法給出各分數之PR值的例子。如今小於20之任一數皆為p0;p1,…,p19皆為20,區間[20,40)中任一數皆為p20;p21,…,p39皆為40,區間[40,60)中任一數皆為p40;p41,…,p59皆為60,區間[60,80)中任一數皆為p60;p61,…,p79皆為80,區間[80,100)中任一數皆為p80;p81,…,p100皆為100。檢驗一下。15為何是p0?因小於或等於15的數有0個,的確至少有0%;大於或等於15的數有5個,佔100%,的確至少有(100-0)%。20為何是p19?因小於或等於20的數有1個,佔20%,的確至少有19%;大於或等於20的數有5個,佔100%,的確至少有(100-19)%。再看一個數,50為何是p40?因小於或等於50的數有2個,佔40%,的確至少有40%;大於或等於50的數有3個,佔60%,的確至少有(100-40)%。又在此例中,第一四分位數(即p25)為40,中位數(p50)為60,第四分位數(即p75)為80。
由上可看出,對每一k,皆有百分位數。所以百分位數與PR值,意義是有差異的。由於既會有好幾個百分位數為同一值,也可能好幾個值為同一百分位數,有人因此如下修正求百分位數之步驟,使每一百分位數之值皆唯一。
假設有n筆數據,欲求pk,先將數據由小排至大,令i=(k/100)×n。若i非整數,則下一個整數所對應的數據,即為pk;若i為整數,則第i個與第i+1個數據之平均,即為pk。仍來看20,40,60,80,100等5數之例。先求p1。因(1/100)×5=0.05,不為整數,而0.05之下一個整數為1,故第1個數據20即為p1。同理可得p2至p19皆為20。再看p20為何?因(20/100)×5=1,為整數,故第1個與第2個數據之平均,即20與40之平均30,便為p20。又因(25/100)×5=1.25,故第2個數據40為第一四分位數。同理可得中位數為60,第三四分位數為80。此修正步驟,雖使每一百分位數之值皆唯一,但仍可能一值同時為數個百分位數。
最後,數據中最大減最小所得之值,稱為全距(range),第三四分位數減第一四分位數所得之值,稱為四分位距(interquartile range)。全距及四分位距,是用來描述資料的分散程度。