規模龐大,有14.6萬人報考的104年大學學測,已於2月1、2日兩天舉行。數學被排在第1天考,試題第5題為一道有關統計的多選題。題目如下:
小明參加某次路跑10公里組的比賽,下表為小明手錶所記錄之各公里的完成時間、平均心率及步數:
|
完成時間 |
平均心率 |
步數 |
第一公里 |
5:00 |
161 |
990 |
第二公里 |
4:50 |
162 |
1000 |
第三公里 |
4:50 |
165 |
1005 |
第四公里 |
4:55 |
162 |
995 |
第五公里 |
4:40 |
171 |
1015 |
第六公里 |
4:41 |
170 |
1005 |
第七公里 |
4:35 |
173 |
1050 |
第八公里 |
4:35 |
181 |
1050 |
第九公里 |
4:40 |
171 |
1050 |
第十公里 |
4:34 |
188 |
1100 |
在這10公里的比賽過程,請依上述數據,選出正確選項。
(1)由每公里的平均心率得知小明最高心率為188。
(2)小明此次路跑,每步距離的平均小於1公尺。
(3)每公里完成時間和每公里平均心率的相關係數為正相關。
(4)每公里步數和每公里平均心率的相關係數為正相關。
(5)每公里完成時間和每公里步數的相關係數為負相關。
“大考中心”提供的“參考答案”為(2)、(4)、(5)。本以為既然是大考中心所提供,會說是標準答案,沒想到居然很客氣,只說是參考答案。
考試結束後,2月3日聯合報刊登一則標題是“學測數學 小明跑步的兩個爭議”之讀者投書,作者是劉仁沛及季瑋珠兩位教授。去掉前言跟結語,我們取投書中討論的部分,一字未改:
先談第一個問題。先假設小明(參加路跑十公里組比賽)一個人每一公里的完成時間、平均心率、步數等十筆資料是互相獨立(其實這個假設是有問題的),則每公里之步數和每公里平均心率的相關係數,及每公里完成時間和每公里步數的相關係數之正負可由散布圖之趨勢來判斷,而不必實際透過複雜的計算,來求得相關係數。
更進一步來看,因為這只是一個樣本資料,故必有抽樣誤差,小明再跑一次十公里,不會得到完全相同的數據,計算的相關係數可能在正常的抽樣誤差內,所以樣本相關係數為正不代表變數間是真正具有正相關。因此第五題(4)及(5)選項之敘述「相關係數為正(負)相關」不是完全正確,應改為「相關係數為正(負)」。
第二個問題,第五題中的相關係數應指「簡單直線相關係數」,計算此係數的假設之一,就是這十筆(完成時間、平均心率、步數)資料間相互獨立。但是第五題的十筆資料均為小明一個人的資料,所以不是相互獨立的,而且後面的數值會受到前面數值的影響,故用簡單直線相關係數公式計算第五題相關係數是否恰當,值得商榷。
高中以前的統計,常常沒有區分樣本和母體,更沒有抽樣誤差及推論的概念,是不完全的統計教學。更重要的是,統計計算的公式是死的,統計方法正確應用卻遠比公式重要。
隨即有位署名walterlin2008的讀者回應:
老師啊,你嘛幫幫忙!研究學問與實務是不一樣的,您們怎會不知道呢?考試題目怎可能像您們講的那樣考慮這許多因素與可能性,通常都嘛會設定「假設XXX不變」這樣的前提,這不是常識嗎?
到底是怎麼一回事?
首先,來看一下5個選項的敘述。題目中的10筆數據,都是關於小明在一次路跑比賽裡的資料,所以也只能得到有關小明在該次路跑的推論。選項(1)及(2)都是問小明如何,這樣問是對的。不過在選項(1)中,若能比照在選項(2)裡,於“小明”之後,加上“此次路跑”4字,題意將更清楚。否則若與選項(2)的敘述對照,會使人以為選項(1)是問小明一般的情況,而不是只針對此次路跑發問。同理,在選項(3)、(4)及(5)裡,因既未提到“小明”,也未提到“此次路跑”,會讓人以為是針對一般人提問。但只是小明的資料,如何能回答一般人會如何?所以,依現有題目之敘述,若有學生謹慎,未選(4)及(5),仍該算是對的。另外,要有兩個變數,才有正相關、負相關,或無相關可言。至於相關係數,只是一個數字,可能為正、負或0,由於並無另一個變數,如何能問“相關”的問題?因此在選項(3)、(4)及(5)裡,問相關係數是否為正相關(或負相關),是不通的。最多只能要考生判斷“相關係數為正(或負)”是否正確,亦即刪除選項敘述裡的“相關”2字。在如此重大的考試裡,連1分之差,都可能影響很大,我們不得不指出,命題者出題相當不嚴謹。
其次,有人可能好奇選項(4)的敘述可否改為“每公里步數和每公里平均心率為正相關”?即刪除“的相關係數”5字。若這樣改,題目敘述便無瑕疵。但如“讀者投書”中所指出,這只是一筆樣本資料,若小明再跑一次,可能得到完全迥異的數據,計算出之相關係數,正負說不定會反過來。這有如題目說“投擲一銅板10次,得到5個正面”,則“銅板出現正面的機率為0.5”之選項,當然不可挑選。因此實際上“每公里步數”,與“每公里平均心率”,此二變數是否為正相關,並無法由那10筆數據得知。所以,一旦敘述修改,則選項(4)便非必然正確。但既然參考答案中有(4),表示命題者認為選項(4)是可判定為正確的,因此敘述便不可如此修改。同理選項(5)的敘述中,也不可刪除“的相關係數”5字。至於選項(3),由於未列進大考中心提供的參考答案中,因此若要刪除那5字,自然是可以的。總之,在選項(3)、(4)及(5)中,得刪除“相關”2字,或“的相關係數”5字,以使敘述無瑕疵。但若依參考答案反推,則合乎命題者原意的敘述,便只能刪除“相關”2字。
再來看“讀者投書”中提及的“資料間相互獨立”之問題。大部分的人會同意,就算只是想得知小明1人路跑每公里完成時間、每公里平均心率,及每公里步數,三變數間之關連,量測也要儘量在相同狀況下,而不僅是如“讀者回應”中所說,設定“假設...”這樣的前提。要知有時並不能隨意假設。例如,豈可假設4=5? 又想了解某校學生對某議題之意見,也不能任挑一班,然後說“假設此班的看法,足以代表全校學生”。但題目一開始便說小明是參加比賽,而眾所皆知,比賽有競爭時可能會較拼命,在最後的階段也可能會衝刺。甚至,人畢竟非汽車,連跑10公里,並不易維持每1公里的狀況都相同。若每天在差不多同一時間跑1公里,量測3項數據,連跑10天,再分析所得的10筆數據,還較合理些。資料的收集,是從事統計工作,一很重要的步驟,必須很嚴謹地進行,使取得的數據不但準確且有代表性,因而得到的推論,方可能較具參考價值。讓初學者誤以為,可如此以方便至上的方式收集數據,是很不妥的。而且如“讀者投書”中指出的,10筆數據均為小明一個人的,但實務上很少會利用同一人持續量測所得之數據,去探討二變數之關連。例如,若想知道父子身高之相關性,便須找到很多對父子身高的數據;若想知道喝酒跟車禍的相關性,也是要收集不同人的數據,而不是依據同一人連續10次酒後開車的反應。
在黃文璋(2011)一文中,將民國98至100年,那3年學測與指考的數學科考題中,凡機率與統計的題目有問題者,皆找出來討論。那時期有爭議的題目,多半與信賴區間有關。直至今日,信賴區間的題材,仍令高中師生感到困惑,因此若有考題值得商榷,還不太讓人訝異。如今“數據分析”也淪陷了。在如此大型的考試,出現這樣一道從語意到內涵,問題重重的題目,並非只涉及到命題者之統計素養是否足夠,比較令人擔憂的是,即使兩位教授投書,仍未引起高中師生太大的反應。甚至還有人揶揄一番,認為教授缺乏常識。憂心忡忡的教授,被視為有如蜀犬吠日。由於並沒有什麼人覺得此題有爭議,顯示學生能不困難地挑出“正確”的答案。可否得分,或許才是高中師生所在意的。高中以這樣的方式學統計,便如黃文璋(2011)一文所指出,不過是將統計三民主義化。也就是豈在乎統計是什麼,要緊的是會正確判斷命題者要的答案。至於高中的統計教學,是否如“讀者投書”中所說,屬於“不完全的統計教學”,恐怕在高中裡乏人關心。我們還大膽猜想,就算是“完全誤導的統計教學”,很可能都難以在高中引起太大的漣漪。約自十年前起,高中數學課綱中,引進不少統計主題,原本是重視統計,未料卻落到這個地步。那些高瞻遠矚,認為該讓國民早些接觸統計的學者,不知是否會感到不勝欷歔?
參考文獻
1. 黃文璋(2011). 機率統計考題探討. 黃家小館(http://huang.nuk.edu.tw/cindex.htm).