2 104學年度第一次英聽
英聽正式考試是從102學年度起,每年兩次,每次皆分上午及下午兩個場次。各場次皆包含40題選擇題,成績的表示採等級制,依序為A、B、C,及F,共4個等級。大考中心對各等級之說明如下:
A 1. 能幾乎完全聽懂以高中階段詞彙及句型構成之敘述或問句。
2. 能幾乎完全理解訊息豐富、主題多樣化的對話內容及相關訊息,並作出適當推論。
3. 能幾乎完全理解長篇、語意間接且具引申含意之陳述內容,並作出適當推論。
B 1. 能大致聽懂以高中階段詞彙及句型構成之敘述或問句。
2. 能大致理解訊息單純、主題生活化的對話內容及相關訊息,並作出簡單推論。
3. 能理解簡短、語意直接之陳述內容,並作出簡單推論。
C 1. 能約略聽懂以高中階段詞彙及句型構成之敘述或問句。
2. 能約略理解訊息單純且明確、語意直接之日常生活對話內容。
3. 能約略理解簡短、語意直接之陳述內容的主旨。
F 1. 僅能聽懂少部分高中階段詞彙及句型構成之敘述或問句。
2. 僅能聽懂少部分日常生活對話內容。
3. 僅能聽懂少部分簡短陳述。
其中B的第3點,漏掉“大致”二字,且是從102學年起便漏掉至今。會不會是特地不寫?不像是,因沒什麼道理只有該處缺一形容詞,大考中心似不夠嚴謹。由大考中心的說明顯示,在聽力及理解力方面,A、B、C及F,分別代表幾乎完全、大致、約略,及少部分等4個層次。數學裡有“幾乎到處”(almost everywhere)的概念。在實數軸上,一函數若幾乎到處為0,表不等於0的地方之“測度”(不妨想成長度)為0。此時若視該函數為0,並不至於有何太大的不妥。在3年來已舉辦的6次英聽中,其中5次至少有10%以上的考生得A等級(102學年度的第一次甚至有超過20%),且每年還有不低比率的考生,當年第一次得A等級第二次的等級卻下降,甚至降到F。給人的感覺是,拿到A等級,離什麼幾乎完全聽懂,及幾乎完全理解,都還有段不小的距離。大考中心對語意的掌握,與一般的習慣似乎很不同。
104學年度,首次有大學採計英聽為入學門檻,自此高中生更辛苦了。大考中心於民國103年11月1日及104年2月3日,分別舉辦104學年度第一次英聽及第二次英聽。大考中心說,成績在計算上包括兩部分。首先,透過測驗統計中的等化(Equating)程序,將原始分數轉換至歷次各場次考試相同的量尺上。其次,依據事先設定的各等級切截分數(Cutoff Score),計算考生成績等級。我們對大考中心分數的轉換,以及等級的切截,一向很不安,常擔心其思考邏輯,底下將會陸續說明。
美國教育測驗服務社(Education Testing Service,縮寫ETS)舉辦的托福考試(Test of English as a Foreign Language,縮寫TOEFL),歷經幾次變革,目前採網路化測驗(Internet-Based Test,縮寫iBT),測驗項目包含閱讀(reading)、聽力(listening)、口說(speaking)及寫作(writing)。每項30分,總分120分。托福考試的聽力可有30分,即分成30級,大考中心的英聽卻只分4等級。又同是大考中心所舉辦,學測各科皆分15級,看不出英聽只分少少的4等級之原因。難道是因執著於幾乎完全、大致、約略,及少部分等4個形容詞嗎?如果是,學測的15級又如何說明?
在104學年度英聽第一次考試的“成績統計報告”中,指出共有128,576人報考,實際到考人數為127,014人,到考率為98.79%。將127,014除以128,576,得到0.98785…,顯然大考中心的百分比是採4捨5入至小數第2位。在該報告中,提供表1至表4等4個統計表。
對數字若有些敏感度,看到表1中第3行3.21、36.34、43.42,及17.03,那4個百分比之和恰為100%,便會覺得有些可疑。要知數字太吻合,反易讓人產生警覺心。因4個值皆經過4捨5入,但和卻仍為1,是有點巧。檢查一下。A等級的人數21,624除以127,014,得0.17024…,因此應為17.02%才對,而非17.03%。原來為了使和為1,大考中心動了些手腳,造成報告不實。以為神不知鬼不覺,不料禁不起被人拿計算機敲一下的檢驗。會不會是筆誤?當然不是。因表1及表3中,皆有數處百分比不正確,即都被大考中心調整過。如同在表1中,最右側累積百分比那行,由於累積至等級B,人數共105,390,除以127,014,得0.82975…,因此應為82.98%才對,而非82.97%。大考中心應是為了使此百分比,等於B(43.42%)、C(36.34),及F(3.21),3個百分比的和。眾所皆知,當分數化為小數時,常會有捨入誤差(rounding error)。給一例子。假設有90人參加英聽,且A、B、C,及F,4個等級的人數分別為30、30、30,及0。如大考中心百分比的表示,便應為33.33%、33.33%、33.33%,及0%。豈可為了使和為100%,而硬生生將A等級改為33.34%?一刀切下去,可差到1個等級,對考生影響甚大。大考中心對於計算,豈可如此隨意?由此可看出,大考中心的數據素養相當不足。
表4以各等級人數的多寡,來比較104學年度與103學年度英聽的第一次考試。這是6份報告中,唯一一次做此比較,卻讓人感到有些可笑,畫蛇添足向來是不好的。表4顯示,104年各等級的人數皆比103年多,但這能說明什麼?小明對小華炫耀,我衣服比你多,球鞋比你多,…,小華一路吃鼇,終於靈光一閃,說“我被當的科目比你多”。兩次考試到考人數不同,104年較103年,增加17,738人,約增加16.23%,不算少的比率,因此各等級人數隨之增加,不過是合理而已。不妨來計算百分比。104年的A、B、C,及F,4等級的百分比,各約為17.02%、43.42%、36.34%,及3.21%(合計99.99%);103年的A、B、C,及F,4等級的百分比,各約為19.53%、45.14%、33.03%,及2.29%(合計99.99%)。對比較好的等級A及B,104年皆較少,而比較差的等級C及F,104年皆較多。此顯示104年的成績乃遜於103年,豈可用各等級的人數皆較多來混淆?至於這樣的差異究竟是由於誤差,還是夠“顯著”?可經由統計檢定來判別。
但無論如何,這項比較的意義是什麼?事實上大考中心雖在每份成績統計報告中,皆強調上、下午場的“測驗信度”(test reliability,指測驗分數的一致性或穩定性)良好,但不同次呢?以得到A等級的比率為例,3年下來的6次英聽,分別約有23.53%、12.58%、19.53%、8.12%、17.02%,及13.02%,波動可說極大。原因為何?由報告中看不出來。托福成績可不必敘明是那一次考的,也就是測驗信度極高。對於英聽的測驗信度,是否真如大考中心所說的很高,由數據並無法讓人產生信心。因此完全不理解大考中心提供表4的目的。