國立高雄大學統計研究所-心在南方

:::

:::

主題：35 估計之評比

發表者：黃文璋　Email:huangwj@nuk.edu.tw

日期：2014/12/8 下午 05:39:22

民國103年12月2日，中國時報有一則標題是“北市：免試方案不變更”的新聞。原來經基北區(台北市、新北市與基隆市)免試入學工作推動小組，及三市教審會通過，並已公告的“基北區‘104年免試入學作業要點’”，於報至教育部備查後，卻被教育部認為比序順次有錯置的問題，因而不同意。自從民國103年實施免試入學以來，有關台北市的高中，究竟如何入學，其評比方式已爭議很久了。

人們常在評比，從小學開始，每次考試便是一次評比。為什麼考這幾科？各科比重何以如此設定？甚至考題為何是這些？都能引起很大的討論，不同立場的意見，經常南轅北轍，相差很多。筆試還算是單純。在體育競技中有很多項目，以及大部分的藝術類比賽，其評比或有裁判參與，或皆由裁判決定，都有相當程度的主觀成分，就更容易產生爭議。如第51屆金馬獎，於民國103年11月22日頒獎，未獲最佳女主角獎的著名演員鞏俐(1965-)，事後透過經紀人表示，金馬獎不專業、不公正，今受不會再參加了。

評比不容易，在統計學裡，針對隨機現象，又是如何評比各方法之優劣？假設想估計某一參數，若以一統計量來估計，這便是所謂點估計(point estimation)。統計量又是什麼？底下以估計銅板出現正面之機率p為例。欲估計p，立即想到的，便是持續投擲銅板n次，假設依序得到X₁，…，X_n，其中X_i=1，表第i次投擲得正面，X_i=0，表第i次投擲得反面，i=1，…，n。則一個X₁，…，X_n的函數，便稱為一統計量。統計量並無太大的限制，唯一的條件，是函數中不能有p。想估計未知的p，當然不可用一與p有關的量來估計它。令S_n=X₁+…+X_n，表n次投擲後，正面出現的總次數。一個簡單且常見的估計法，便是以統計量S_n/n來估計p。另外，亦可以X₁，或(X₁+X₂)/2等統計量來估計p。

有時高估，有時低估，對於隨機現象，無法每次都精確估計。若每次都估對，不但不會被認為是神算子，還很可能被懷疑作假。不求每次估對，退而求其次，一個常被認為合理的要求是，平均須是準的。更明確地說，若某估計量T_n之期望值等於p，即E(T_n)=p，則T_n便稱為p之一不偏估計量(unbiased estimator)。換句話說，所謂不偏，是在期望值意義下的不偏。這次高估，下次低估，皆無妨，但平均而言，總得要準確。估計量若未滿足此條件，便是系統性的偏差，該做些調整。如果肉販經常斤兩不足，顧客當然覺得肉販不老實。有時多些，有時少些，平均則不多不少，顧客還會相信是誤差造成的。對前述X₁，…，X_n，因對i=1，…，n，皆有E(X_i)=1×p+0×p=p，故諸如X₁，(X₁+X₂)/2，及S_n/n等，皆為p之不偏估計量。事實上，不難看出，p有無限多個不偏估計量。無限多個不偏估計量中，那一個較好呢？

直觀上，X₁，及(X₁+X₂)/2，都不會是太好的估計量，因沒有“善用資訊”。明明有n個觀測值X₁，…，X_n，卻只用到其中幾個。所以，估計量光是不偏並不夠。但不偏估計量，若加上變異數最小，這種估計量應很受歡迎。估計量為一隨機變數，若其期望值(也就是核心)為欲估計的參數p，而變異數又最小，那表示估計量大致就在p之附近波動，偏差很小。另外，估計量光是變異數小也不夠。例如，比賽射飛標，若射在靶上的點都很接近，顯示所射位置的變異數很小，但若核心偏離紅心，即位置的期望值不為p，這樣當然不算射得準。估計量的變異數乃與p有關，若有一不偏估計量，不論p為何，其變異數均小於或等於其他不偏估計量的變異數，則此估計量便稱為一致最小變異不偏估計量(uniformly minimum variance unbiased estimator，縮寫UMVUE)。所謂“一致”是指對每一p，變異數均最小。

在統計裡，對某參數執行一點估計，便常是在決定該參數的UMVUE。從無限多個不偏估計量中，有如從茫茫大海中，如何找出UMVUE？一定存在嗎？統計學裡，早已發展出找UMVUE的有效步驟。且知在某些情況下，UMVUE必存在。有興趣進一步了解的讀者，可參考黃文璋(2003)一書的第七章。但UMVUE，只是常被採用，並未被公認就是最佳估計量。它只是在不偏估計量中，變異數最小，是在這些限制下的最佳。但何謂最佳？仍有不同的看法。如不偏性雖有其道理，但局限在不偏估計量中找變異數最小的，有時可能會找到頗荒謬，令人難以接受的估計量。這種例子，以及其他評比估計量的準則，皆可參考黃文璋(2003)一書的第七章。

總之，評比有各種不同的準則。較合理的準則，評比出來的結果，便較易被接受。以網路評比為例，雖常認為容易被操作，評出的結果不太可信，但仍有可信度相當高之網路評比。底下我們介紹一個已有二十多年歷史，且聲譽不錯的網站，取材自黃文璋(2013)。

IMDb(Internet Movie Database)，是一關於電影(包含電視)的資料庫，截至2014年12月5日止，共收錄了2,571,742部作品，以及5,316,871位人物的資料，內容極豐富。這是查詢電影或演員，一很有用的資料庫。世界各國出品的影片眾多，在進電影院前，或買DVD前，不妨先上IMDb網站，看此部電影的評分(rating)為何？而且，只要上網註冊，便可對你有興趣的電影，從1至10予以評分。對每部電影，IMDb除給出平均得分(計算至小數第1位)外，還附上評分總人數、各級分的人數與所佔百分比，及評分者之性別、年齡、美國人與非美國人等統計數據，資料頗完整。電影獲評分7以上便算是高的，得8分以上的大致是很好的電影，9分以上就極稀少了。通常大明星主演，或大導演拍的電影，分數不至於太低。但仍有聲勢浩大，卻只拿到5點多分的。IMDb還列出歷來評分最高的250部電影名單，其得分約從8.0至9.2；也列出評分最低的100部影片，其得分約散佈在1.3至2.6間。由於隨時有人上網評分，且新電影不斷問世，各種數據，及250部佳片的名單等，都可能隨時更新。

雖然時常有人質疑網路評分的可信度，但IMDb的評分，應很值得信賴。IMDb開辦於1990年，至今才二十餘年。評分最高的前20部電影中，有好幾部，是早在IMDb的網站開辦前便已上映，如排名第7，是1957年出品的“十二怒漢(12 Angry Men)”。那麼早以前的電影，今日可說幾乎已無商業價值了，很難相信會有人去炒作。因此IMDb評分者的自主性，該屬可信。

那正在上映中的電影，會不會因個人偏好，或電影公司為了刺激票房，而有哄抬的情形？畢竟評分較高，會較易吸引更多人買票進電影院。就算有，也可能無助於提高評分。以2012年那部同名漫畫改編的“復仇者聯盟”(The Avengers)為例，這是有史以來票房收入第三高的電影，僅次於“阿凡達”(Avatar，2009)，及“鐵達尼號”(Titanic，1997)。一開始評分有9點多，相當耀眼。這不難理解，因這麼熱門的電影，會擠破頭搶先去看，且還上網評分者，總是較喜愛這類緊張熱鬧的打鬥電影。晚些看或評分者，應大抵是較冷靜看待這部影片者，於是分數便逐漸被拉下了。到2014年12月5日“復仇者聯盟”的評分是8.2，在250佳片中排名196，評分人數超過73萬。這麼多人，大約很難是動員來的。另一方面，假設因一開始的高分，引來一些原來不愛這類電影的人去看，且上網評分，反倒可能拉低其平均分數。仍以“復仇者聯盟”為例，評分10及9者，各佔29.1%及23.3%，加起來超過半數，所以得分之中位數大於9，但低分仍佔了一些，連1分都有1.5%，遂將平均降至8.2分。因一個1分，要好幾個9、10分才能拉上去。換句話說，電影的亮麗票房，對提高評分，並不見得很有效。以李安(1954-)的“綠巨人浩克”(Hulk，2003)來說，評分人數多達17.8萬人，在李安所拍電影中算多的，但得分卻是他的電影中最低，僅5.7分。總之，長期而言，一部電影會得到它該有的評分，這也是機率裡大數法則的精神。

如果你上IMDb網站，將會發現名列250佳片的電影，其獲得之評分及人數，與該電影網頁上所列，略有差異。特別是評分人數，250佳片名單上所列皆較少。而且，有些在影片網頁上的評分，高達9.4，卻未名列250佳片央。原來要被列入250佳片，是有些條件的。首先，必須是曾公開上映的非紀錄片，且片長至少有45分鐘。又評分人數須有2.5萬以上，且只有“定期投票習慣”者，其評分才會被採計。如何才算符合有定期投票習慣？IMDb宣稱，為了保持250佳片名單的公信力，他們故意不公開有效計票的標準。另外，250佳片中所列出之評分，是被IMDb以“貝氏估計法”修正過的。公式如下：

W=(Rv+Cm)/(v+m)，

其中W=估計評分，R=平均評分，v=評分人數，m=進入250佳片名單的最少評分人數(目前為2.5萬人)，C=全部平均評分(目前為7.0)。所以對一部電影，若有效的評分人數過少，並不會被列入250佳片，這當然合理。在個別電影中，所有評分皆會被計入平均，即尊重每一投票者之好惡。但在評比250佳片時，則希望可以有較一致的標準，才好放在一起比高下，因此只採計有定期投票習慣者之評分。常上網投票的人，可能會較專業或客觀些。又大家應可看出，對一部電影，W其實是它所獲平均評分，與全名單中平均評分之加權。當電影的有效評分人數愈多，他們的評分所佔比重便愈大。100差片的計算方式類似，惟最少評分人數，只須1千5百人。這也合理，爛片不能要求有太多人願意去看。有興趣者，不妨參考黃文璋(2003)一書，在第六章貝氏估計那節，將可得知上述修正公式之由來。

今日有各式各樣的評比，如同IMDb，不少評比是以票選的方式。對諸如“新世界7大自然奇景”之選拔，由於大部分投票者，並未去過或真了解幾個自然奇景，再加上有拉票行為，其結果不見得可靠。但IMDb這套評分方式，大致是看過電影的人，才會去評。而且是長期的結果，其中又未涉及什麼利益，因此結果應有相當參考價值。而特別訂定能名列250佳片之門檻，及計分方式，IMDb為提高評比可信度之用心，值得我們做各種評比時之參考。

參考文獻

1. 黃文璋(2003). 數理統計. 華泰文化事業股份有限公司, 台北市.