國立高雄大學統計學研究所
最新消息 本所簡介 師資介紹 開設課程 教師成果 學生表現 學術演講 入學管道 學生園地 心在南方 表格下載 活動集錦 網路資源 關於我們
本站首頁 本校首頁 英文版
:::心在南方  
主題:35 估計之評比
發表者:黃文璋 Email:huangwj@nuk.edu.tw 日期:2014/12/8 下午 05:39:22

民國103122,中國時報有一則標題是“北市:免試方案不變更”的新聞。原來經基北區(台北市、新北市與基隆市)免試入學工作推動小組,及三市教審會通過,並已公告的“基北區‘104年免試入學作業要點’”,於報至教育部備查後,卻被教育部認為比序順次有錯置的問題,因而不同意。自從民國103年實施免試入學以來,有關台北市的高中,究竟如何入學,其評比方式已爭議很久了。

人們常在評比,從小學開始,每次考試便是一次評比。為什麼考這幾科?各科比重何以如此設定?甚至考題為何是這些?都能引起很大的討論,不同立場的意見,經常南轅北轍,相差很多。筆試還算是單純。在體育競技中有很多項目,以及大部分的藝術類比賽,其評比或有裁判參與,或皆由裁判決定,都有相當程度的主觀成分,就更容易產生爭議。如第51屆金馬獎,於民國1031122頒獎,未獲最佳女主角獎的著名演員鞏俐(1965-),事後透過經紀人表示,金馬獎不專業、不公正,今受不會再參加了。

評比不容易,在統計學裡,針對隨機現象,又是如何評比各方法之優劣?假設想估計某一參數,若以一統計量來估計,這便是所謂點估計(point estimation)。統計量又是什麼?底下以估計銅板出現正面之機率p為例。欲估計p,立即想到的,便是持續投擲銅板n次,假設依序得到X1,…,Xn,其中Xi=1,表第i次投擲得正面,Xi=0,表第i次投擲得反面,i=1,…,n。則一個X1,…,Xn的函數,便稱為一統計量。統計量並無太大的限制,唯一的條件,是函數中不能有p。想估計未知的p,當然不可用一與p有關的量來估計它。令Sn=X1++Xn,表n次投擲後,正面出現的總次數。一個簡單且常見的估計法,便是以統計量Sn/n來估計p。另外,亦可以X1,或(X1+X2)/2等統計量來估計p

有時高估,有時低估,對於隨機現象,無法每次都精確估計。若每次都估對,不但不會被認為是神算子,還很可能被懷疑作假。不求每次估對,退而求其次,一個常被認為合理的要求是,平均須是準的。更明確地說,若某估計量Tn之期望值等於p,即E(Tn)=p,則Tn便稱為p之一不偏估計量(unbiased estimator)。換句話說,所謂不偏,是在期望值意義下的不偏。這次高估,下次低估,皆無妨,但平均而言,總得要準確。估計量若未滿足此條件,便是系統性的偏差,該做些調整。如果肉販經常斤兩不足,顧客當然覺得肉販不老實。有時多些,有時少些,平均則不多不少,顧客還會相信是誤差造成的。對前述X1,…,Xn,因對i=1,…,n,皆有E(Xi)=1×p+0×p=p,故諸如X1(X1+X2)/2,及Sn/n等,皆為p之不偏估計量。事實上,不難看出,p有無限多個不偏估計量。無限多個不偏估計量中,那一個較好呢?

直觀上,X1,及(X1+X2)/2,都不會是太好的估計量,因沒有“善用資訊”。明明有n個觀測值X1,…,Xn,卻只用到其中幾個。所以,估計量光是不偏並不夠。但不偏估計量,若加上變異數最小,這種估計量應很受歡迎。估計量為一隨機變數,若其期望值(也就是核心)為欲估計的參數p,而變異數又最小,那表示估計量大致就在p之附近波動,偏差很小。另外,估計量光是變異數小也不夠。例如,比賽射飛標,若射在靶上的點都很接近,顯示所射位置的變異數很小,但若核心偏離紅心,即位置的期望值不為p,這樣當然不算射得準。估計量的變異數乃與p有關,若有一不偏估計量,不論p為何,其變異數均小於或等於其他不偏估計量的變異數,則此估計量便稱為一致最小變異不偏估計量(uniformly minimum variance unbiased estimator,縮寫UMVUE)。所謂“一致”是指對每一p,變異數均最小。

在統計裡,對某參數執行一點估計,便常是在決定該參數的UMVUE。從無限多個不偏估計量中,有如從茫茫大海中,如何找出UMVUE?一定存在嗎?統計學裡,早已發展出找UMVUE的有效步驟。且知在某些情況下,UMVUE必存在。有興趣進一步了解的讀者,可參考黃文璋(2003)一書的第七章。但UMVUE,只是常被採用,並未被公認就是最佳估計量。它只是在不偏估計量中,變異數最小,是在這些限制下的最佳。但何謂最佳?仍有不同的看法。如不偏性雖有其道理,但局限在不偏估計量中找變異數最小的,有時可能會找到頗荒謬,令人難以接受的估計量。這種例子,以及其他評比估計量的準則,皆可參考黃文璋(2003)一書的第七章。

總之,評比有各種不同的準則。較合理的準則,評比出來的結果,便較易被接受。以網路評比為例,雖常認為容易被操作,評出的結果不太可信,但仍有可信度相當高之網路評比。底下我們介紹一個已有二十多年歷史,且聲譽不錯的網站,取材自黃文璋(2013)

IMDb(Internet Movie Database),是一關於電影(包含電視)的資料庫,截至2014125止,共收錄了2,571,742部作品,以及5,316,871位人物的資料,內容極豐富。這是查詢電影或演員,一很有用的資料庫。世界各國出品的影片眾多,在進電影院前,或買DVD前,不妨先上IMDb網站,看此部電影的評分(rating)為何?而且,只要上網註冊,便可對你有興趣的電影,從110予以評分。對每部電影,IMDb除給出平均得分(計算至小數第1)外,還附上評分總人數、各級分的人數與所佔百分比,及評分者之性別、年齡、美國人與非美國人等統計數據,資料頗完整。電影獲評分7以上便算是高的,得8分以上的大致是很好的電影,9分以上就極稀少了。通常大明星主演,或大導演拍的電影,分數不至於太低。但仍有聲勢浩大,卻只拿到5點多分的。IMDb還列出歷來評分最高的250部電影名單,其得分約從8.09.2;也列出評分最低的100部影片,其得分約散佈在1.32.6間。由於隨時有人上網評分,且新電影不斷問世,各種數據,及250部佳片的名單等,都可能隨時更新。

雖然時常有人質疑網路評分的可信度,但IMDb的評分,應很值得信賴。IMDb開辦於1990年,至今才二十餘年。評分最高的前20部電影中,有好幾部,是早在IMDb的網站開辦前便已上映,如排名第7,是1957年出品的“十二怒漢(12 Angry Men)”。那麼早以前的電影,今日可說幾乎已無商業價值了,很難相信會有人去炒作。因此IMDb評分者的自主性,該屬可信。

那正在上映中的電影,會不會因個人偏好,或電影公司為了刺激票房,而有哄抬的情形?畢竟評分較高,會較易吸引更多人買票進電影院。就算有,也可能無助於提高評分。以2012年那部同名漫畫改編的“復仇者聯盟”(The Avengers)為例,這是有史以來票房收入第三高的電影,僅次於“阿凡達”(Avatar2009),及“鐵達尼號”(Titanic1997)。一開始評分有9點多,相當耀眼。這不難理解,因這麼熱門的電影,會擠破頭搶先去看,且還上網評分者,總是較喜愛這類緊張熱鬧的打鬥電影。晚些看或評分者,應大抵是較冷靜看待這部影片者,於是分數便逐漸被拉下了。到2014125“復仇者聯盟”的評分是8.2,在250佳片中排名196,評分人數超過73萬。這麼多人,大約很難是動員來的。另一方面,假設因一開始的高分,引來一些原來不愛這類電影的人去看,且上網評分,反倒可能拉低其平均分數。仍以“復仇者聯盟”為例,評分109者,各佔29.1%23.3%,加起來超過半數,所以得分之中位數大於9,但低分仍佔了一些,連1分都有1.5%,遂將平均降至8.2分。因一個1分,要好幾個910分才能拉上去。換句話說,電影的亮麗票房,對提高評分,並不見得很有效。以李安(1954-)的“綠巨人浩克”(Hulk2003)來說,評分人數多達17.8萬人,在李安所拍電影中算多的,但得分卻是他的電影中最低,僅5.7分。總之,長期而言,一部電影會得到它該有的評分,這也是機率裡大數法則的精神。

如果你上IMDb網站,將會發現名列250佳片的電影,其獲得之評分及人數,與該電影網頁上所列,略有差異。特別是評分人數,250佳片名單上所列皆較少。而且,有些在影片網頁上的評分,高達9.4,卻未名列250佳片央。原來要被列入250佳片,是有些條件的。首先,必須是曾公開上映的非紀錄片,且片長至少有45分鐘。又評分人數須有2.5萬以上,且只有“定期投票習慣”者,其評分才會被採計。如何才算符合有定期投票習慣?IMDb宣稱,為了保持250佳片名單的公信力,他們故意不公開有效計票的標準。另外,250佳片中所列出之評分,是被IMDb以“貝氏估計法”修正過的。公式如下:

W=(Rv+Cm)/(v+m)

其中W=估計評分,R=平均評分,v=評分人數,m=進入250佳片名單的最少評分人數(目前為2.5萬人)C=全部平均評分(目前為7.0)。所以對一部電影,若有效的評分人數過少,並不會被列入250佳片,這當然合理。在個別電影中,所有評分皆會被計入平均,即尊重每一投票者之好惡。但在評比250佳片時,則希望可以有較一致的標準,才好放在一起比高下,因此只採計有定期投票習慣者之評分。常上網投票的人,可能會較專業或客觀些。又大家應可看出,對一部電影,W其實是它所獲平均評分,與全名單中平均評分之加權。當電影的有效評分人數愈多,他們的評分所佔比重便愈大。100差片的計算方式類似,惟最少評分人數,只須15百人。這也合理,爛片不能要求有太多人願意去看。有興趣者,不妨參考黃文璋(2003)一書,在第六章貝氏估計那節,將可得知上述修正公式之由來。

今日有各式各樣的評比,如同IMDb,不少評比是以票選的方式。對諸如“新世界7大自然奇景”之選拔,由於大部分投票者,並未去過或真了解幾個自然奇景,再加上有拉票行為,其結果不見得可靠。但IMDb這套評分方式,大致是看過電影的人,才會去評。而且是長期的結果,其中又未涉及什麼利益,因此結果應有相當參考價值。而特別訂定能名列250佳片之門檻,及計分方式,IMDb為提高評比可信度之用心,值得我們做各種評比時之參考。

參考文獻

1. 黃文璋(2003). 數理統計. 華泰文化事業股份有限公司, 台北市.

2. 黃文璋(2013). IMDb網站. 黃家小館(http://huang.nuk.edu.tw/cindex.htm).

   暫無回應
 回本區首頁 
  回應總數0  
 
 
  下一頁  
  
 
我要回應
姓 名: 回應前,請先註冊登入
E-mail:
內 容:
驗證碼:  (2TLM
 
 
:::
 
*

地  址:811高雄市楠梓區高雄大學路700號
電  話:07-5919362 傳真:07-5919360 e-mail: stat@nuk.edu.tw
更新日期:2024/4/11 上午 09:16:10

2003/10/20起第 9061904 位訪客
*