國立高雄大學統計研究所-心在南方

:::

:::

主題：機率與統計在高中(二)

發表者：黃文璋　Email:huangwj@nuk.edu.tw

日期：2015/4/24 下午 08:33:42

2 信賴區間在高中

統計學裡常在估計，比較入門的是參數估計。假設某隨機變數X遵循某一機率分佈，分佈中有一未知的參數 θ。經由重複觀測後，得到一組隨機樣本X₁，X₂，…，X_n。一個X₁，X₂，…，X_n的函數，便是一統計量。我們可以一統計量來估計θ，這便是點估計。由於是估計θ用，因此統計量不可與θ有關。其次，以一個兩端點皆為統計量的隨機區間來估計θ，便是區間估計，這樣便得到信賴區間。至於θ會落在一信賴區間之機率，稱為該信賴區間之信心水準。即使對同一分佈的同一參數，都可有各種不同的點估計，並未定於一尊。至於各估計量之優劣如何評比？就依所訂定之評比標準，標準當然也不唯一。對於信賴區間，有時區間的端點求不出來，或求出卻過於複雜，不太實用。當樣本數夠大時，常可藉助中央極限定理，以常態分佈來近似標準化後隨機變數之和。既然是估計，主要目的是供決策之參考，不會太在意採取近似，只要誤差在容忍範圍內。再度，對同一分佈的同一參數，信賴區間並不唯一，通常會要求區間長度愈短愈好。

在大學的統計學課程裡，對於信賴區間，一般而言，學生不會覺得太困難。因在大學裡，於信賴區間這一章，乃考慮各種不同的分佈，於不同的假設(如一分佈若有兩個參數，可分其中之一已知，另一未知，或兩個皆未知等情況)下，有時要用到中央極限定理，有時不必(前言裡所引99課綱說“背後理論是中央極限定理”，並不正確，當不需以常態分佈來近似，便無涉中央極限定理)，包含的情況很多。簡單講，學習此章時，會感到各式各樣的分類還真不少。若對各種情況下，皆知如何給出一信賴區間，這章可說便過關了。因此大學生對於信賴區間那一單元，通常僅以為瑣碎，但倒不認為難應付。

那怎麼信賴區間進入高中後，卻吹皺一池春水，讓原本只會讓人抱怨太難的高中數學，變成有一不算難，但卻比難還令人更受不得的單元？我們猜想主要原因如下。

高中的信賴區間，只針對二項分佈。二項分佈是一簡單，但機率值的和不好計算的分佈。因此高中數學從95暫綱起，便先講中央極限定理，以常態分佈來近似二項分佈。這是高中引進中央極限定理的唯一理由，且只考慮幾乎可說是最簡單的版本，即只適用二項分佈。由於其證明超過高中範圍，教科書遂藉助圖示，以使學生了解此定理到底在說些什麼。假設S_n有參數n，p的二項分佈，即B(n,p)分佈。有些書中繪出某一S_n的直方圖，然後說，n夠大時，會近似標準常態分佈的圖形。這當然是錯的，要將S_n標準化才行，否則當n愈大，S_n的直方圖會愈像一水平線。事實上，比前述講法更離譜的還有不少，見黃文璋(2011d)。大部分教科書的作者可能是想當然耳，並未真正讓n逐漸增大，以觀察S_n直方圖的變化。這不表示在大學學習中央極限定理時，就一路平坦，通行無阻。而是不像在高中的教科書中，就那麼一個孤零零的定理，大學裡有很多題材要講。因此通常大學教師並不太在乎什麼圖示，快速便帶過中央極限定理了，最多藉助特徵函數(characteristic function)來證明。也就是學習方面潛藏的問題，在大學裡較不會浮現。

高中數學，於中央極限定理之後，便是應用。再度，只有一個應用，就是做民調時求信賴區間。但民調裡的抽樣，通常是所謂取出後不放回，如此各樣本不獨立。因而涉及的分佈，為超幾何分佈(hypergeometric distribution)，並非二項分佈，如此中央極限定理便不適用了。這部分可把教師弄糊塗了。數學上何曾有在條件不滿足之下，定理仍可引用？由於是在高中的“數學”課程中，少有教科書的作者，能理直氣壯地將此處用到的近似概念講清楚。事實上，是有些認真的教師，試圖補上自認該有的“證明”，只是其證明當然都是錯的，見黃文璋(2011d)一文的第4節。欲將書上含糊處弄清，往往引出更多問題，導致教師無所適從。

高中數學裡求信賴區間，就是只局限在B(n,p)分佈(而且如前所述，其實是超幾何分佈)中的p，且信心水準就設定為95%，沒其他變化，很單純。不像大學的統計學，在信賴區間那一章，情況多到會讓人眼花撩亂。高中裡涵蓋的內容不多，一下子講完事小，變化那麼少，怎麼考試？而且還考選擇題？這是大學統計學教師不會有的煩惱，因種類夠多，且考題多半是計算的型式。在黃文璋(2011e)一文中，我們將民國98至101年，那4年的學測數學，及指考數學甲與數學乙，共12份試題中，值得商榷的機率與統計考題，皆取出來分析。數學國文化，可看到有關信賴區間的考題，差不多都成為文字遊戲了。所以，若聽到有大學的統計學教授說，某次指考那道信賴區間的考題，5個選項他錯了3個，也就不必感到太訝異了。因國文科的考題，統計學教授考不好，乃稀鬆平常。只是這樣子學習數學，有何樂趣呢？

至於信心水準，所造成的困惑，也絕對不會少。長期以來，高中數學裡出現的機率，大抵是古典機率，即基於相同的可能性。因此對機率的理解，可說就是排列組合加上除法。連條件機率，恐怕也只會讓人連想到除法。因此昔日在高中數學裡接觸機率時，大約少會去思索機率的意義是什麼？引進信賴區間後，一個信心水準95%的信賴區間，可能不包含欲估計的參數。那95%是指什麼？而且怎麼每次得到的信賴區間都不同？到底在信賴什麼？師生皆一頭霧水，心想，這是什麼數學？又從信賴區間起，有了取樣，之後不稱機率，卻稱信心水準。這又產生一些效應。抽屜裡有一支鉛筆跟一支鋼筆，某師拿出鉛筆放背後，問學生是鋼筆的機率。這本是一極簡單的題目，學了信賴區間後，有些教師連此題是否有意義，都感到極度困惑。歸根結柢，長期以來，在高中數學中，不曾認真說明機率的涵義，條件機率更是模糊以對，從未強調機率值會變的概念。甚至，機率與統計中，最重要的隨機性，也常被忽視。在前言裡所引99課綱說明的第二段中，首先“給出信賴區間公式”，這種說法就未傳遞統計學裡，可有南轅北轍，各種不同的估計法，而由於隨機性，使各估計法常互有較準的時候；其次，“以此解讀，何以大多數的學生所得的信賴區間都會涵蓋p？”更是連隨機性都不顧了。這樣子學統計，真是教壞學生。

數學家習於講數學之美，數學裡強調準確性。但對高中數學教師，於信賴區間這一單元，絲毫體會不到美感，準確性也不知何在？數學課程裡為何要有此內容？不少教師無法說服自己，因此在很多場合，屢有教師建議取消此主題。怎會只因常在媒體上看到民調結果的公佈，就覺得信賴區間很重要，高中生該會？當初將信賴區間引進高中數學，可說沒什麼邏輯。對大部分的國民，那有機會去執行民調，去抽取1千多個樣本？信賴區間其實不必成為國民的基本數學素養。何況，既然這麼多年下來，連教師都弄不太懂的內容，講授何益？是該自高中數學裡刪除了。

參考文獻

1. 黃文璋(2011d). 庶民中央極限定理. 黃家小館(http://www.stat.nuk.edu.tw/huangwj/cindex.htm).