國立高雄大學統計研究所-心在南方

:::

:::

主題：數據素養(二)

發表者：黃文璋　Email:huangwj@nuk.edu.tw

日期：2015/3/3 下午 02:30:19

2 104學年度第一次英聽

英聽正式考試是從102學年度起，每年兩次，每次皆分上午及下午兩個場次。各場次皆包含40題選擇題，成績的表示採等級制，依序為A、B、C，及F，共4個等級。大考中心對各等級之說明如下：

A 1. 能幾乎完全聽懂以高中階段詞彙及句型構成之敘述或問句。

2. 能幾乎完全理解訊息豐富、主題多樣化的對話內容及相關訊息，並作出適當推論。

3. 能幾乎完全理解長篇、語意間接且具引申含意之陳述內容，並作出適當推論。

B 1. 能大致聽懂以高中階段詞彙及句型構成之敘述或問句。

2. 能大致理解訊息單純、主題生活化的對話內容及相關訊息，並作出簡單推論。

3. 能理解簡短、語意直接之陳述內容，並作出簡單推論。

C 1. 能約略聽懂以高中階段詞彙及句型構成之敘述或問句。

2. 能約略理解訊息單純且明確、語意直接之日常生活對話內容。

3. 能約略理解簡短、語意直接之陳述內容的主旨。

F 1. 僅能聽懂少部分高中階段詞彙及句型構成之敘述或問句。

2. 僅能聽懂少部分日常生活對話內容。

3. 僅能聽懂少部分簡短陳述。

其中B的第3點，漏掉“大致”二字，且是從102學年起便漏掉至今。會不會是特地不寫？不像是，因沒什麼道理只有該處缺一形容詞，大考中心似不夠嚴謹。由大考中心的說明顯示，在聽力及理解力方面，A、B、C及F，分別代表幾乎完全、大致、約略，及少部分等4個層次。數學裡有“幾乎到處”(almost everywhere)的概念。在實數軸上，一函數若幾乎到處為0，表不等於0的地方之“測度”(不妨想成長度)為0。此時若視該函數為0，並不至於有何太大的不妥。在3年來已舉辦的6次英聽中，其中5次至少有10%以上的考生得A等級(102學年度的第一次甚至有超過20%)，且每年還有不低比率的考生，當年第一次得A等級第二次的等級卻下降，甚至降到F。給人的感覺是，拿到A等級，離什麼幾乎完全聽懂，及幾乎完全理解，都還有段不小的距離。大考中心對語意的掌握，與一般的習慣似乎很不同。

104學年度，首次有大學採計英聽為入學門檻，自此高中生更辛苦了。大考中心於民國103年11月1日及104年2月3日，分別舉辦104學年度第一次英聽及第二次英聽。大考中心說，成績在計算上包括兩部分。首先，透過測驗統計中的等化(Equating)程序，將原始分數轉換至歷次各場次考試相同的量尺上。其次，依據事先設定的各等級切截分數(Cutoff Score)，計算考生成績等級。我們對大考中心分數的轉換，以及等級的切截，一向很不安，常擔心其思考邏輯，底下將會陸續說明。

美國教育測驗服務社(Education Testing Service，縮寫ETS)舉辦的托福考試(Test of English as a Foreign Language，縮寫TOEFL)，歷經幾次變革，目前採網路化測驗(Internet-Based Test，縮寫iBT)，測驗項目包含閱讀(reading)、聽力(listening)、口說(speaking)及寫作(writing)。每項30分，總分120分。托福考試的聽力可有30分，即分成30級，大考中心的英聽卻只分4等級。又同是大考中心所舉辦，學測各科皆分15級，看不出英聽只分少少的4等級之原因。難道是因執著於幾乎完全、大致、約略，及少部分等4個形容詞嗎？如果是，學測的15級又如何說明？

在104學年度英聽第一次考試的“成績統計報告”中，指出共有128,576人報考，實際到考人數為127,014人，到考率為98.79%。將127,014除以128,576，得到0.98785…，顯然大考中心的百分比是採4捨5入至小數第2位。在該報告中，提供表1至表4等4個統計表。

對數字若有些敏感度，看到表1中第3行3.21、36.34、43.42，及17.03，那4個百分比之和恰為100%，便會覺得有些可疑。要知數字太吻合，反易讓人產生警覺心。因4個值皆經過4捨5入，但和卻仍為1，是有點巧。檢查一下。A等級的人數21,624除以127,014，得0.17024…，因此應為17.02%才對，而非17.03%。原來為了使和為1，大考中心動了些手腳，造成報告不實。以為神不知鬼不覺，不料禁不起被人拿計算機敲一下的檢驗。會不會是筆誤？當然不是。因表1及表3中，皆有數處百分比不正確，即都被大考中心調整過。如同在表1中，最右側累積百分比那行，由於累積至等級B，人數共105,390，除以127,014，得0.82975…，因此應為82.98%才對，而非82.97%。大考中心應是為了使此百分比，等於B(43.42%)、C(36.34)，及F(3.21)，3個百分比的和。眾所皆知，當分數化為小數時，常會有捨入誤差(rounding error)。給一例子。假設有90人參加英聽，且A、B、C，及F，4個等級的人數分別為30、30、30，及0。如大考中心百分比的表示，便應為33.33%、33.33%、33.33%，及0%。豈可為了使和為100%，而硬生生將A等級改為33.34%？一刀切下去，可差到1個等級，對考生影響甚大。大考中心對於計算，豈可如此隨意？由此可看出，大考中心的數據素養相當不足。

表4以各等級人數的多寡，來比較104學年度與103學年度英聽的第一次考試。這是6份報告中，唯一一次做此比較，卻讓人感到有些可笑，畫蛇添足向來是不好的。表4顯示，104年各等級的人數皆比103年多，但這能說明什麼？小明對小華炫耀，我衣服比你多，球鞋比你多，…，小華一路吃鼇，終於靈光一閃，說“我被當的科目比你多”。兩次考試到考人數不同，104年較103年，增加17,738人，約增加16.23%，不算少的比率，因此各等級人數隨之增加，不過是合理而已。不妨來計算百分比。104年的A、B、C，及F，4等級的百分比，各約為17.02%、43.42%、36.34%，及3.21%(合計99.99%)；103年的A、B、C，及F，4等級的百分比，各約為19.53%、45.14%、33.03%，及2.29%(合計99.99%)。對比較好的等級A及B，104年皆較少，而比較差的等級C及F，104年皆較多。此顯示104年的成績乃遜於103年，豈可用各等級的人數皆較多來混淆？至於這樣的差異究竟是由於誤差，還是夠“顯著”？可經由統計檢定來判別。

但無論如何，這項比較的意義是什麼？事實上大考中心雖在每份成績統計報告中，皆強調上、下午場的“測驗信度”(test reliability，指測驗分數的一致性或穩定性)良好，但不同次呢？以得到A等級的比率為例，3年下來的6次英聽，分別約有23.53%、12.58%、19.53%、8.12%、17.02%，及13.02%，波動可說極大。原因為何？由報告中看不出來。托福成績可不必敘明是那一次考的，也就是測驗信度極高。對於英聽的測驗信度，是否真如大考中心所說的很高，由數據並無法讓人產生信心。因此完全不理解大考中心提供表4的目的。

暫無回應

回本區首頁

回應總數0

姓名：	回應前，請先註冊或登入。
E-mail：
內容：
驗證碼：	（BNDH）

:::

地　　址：811高雄市楠梓區高雄大學路700號
電　　話：07-5919362 傳真：07-5919360 e-mail: stat@nuk.edu.tw
更新日期：2024/4/11 上午 09:16:10

2003/10/20起第

9011961

位訪客