國立高雄大學統計學研究所
最新消息 本所簡介 師資介紹 開設課程 教師成果 學生表現 學術演講 入學管道 學生園地 心在南方 表格下載 活動集錦 網路資源 關於我們
本站首頁 本校首頁 英文版
:::心在南方  
主題:統計下凡(十六)
發表者:黃文璋 Email:huangwj@nuk.edu.tw 日期:2021/9/26 下午 12:23:04

16 取樣偏差

“淮南子”乃西漢淮南王劉安(西元前179-122),召其幕下士人所完成,但掛名的只有劉安。如果在今日,劉安肯定會被批評違反學術倫理。但往昔並無著作權的概念,有人辛苦寫本書,惟恐自己人微言輕,心血將難被重視,還假借是某古代名人所作。人們常說的“一葉知秋”,便出自“淮南子”的“說山”篇,“嘗一臠肉,知一鑊之味;懸羽與炭,而知燥濕之氣;以小明大。見一葉落,而知歲之將暮;睹瓶中之冰,而知天下之寒:以近論遠。”意思是說,嘗一小塊肉,便知整鍋肉之味道;懸掛羽毛與木炭,便知空氣之濕度:這是由小明白大的道理。看到一片葉子凋落,就知道一年將盡;看見瓶中的水結冰,就知道天氣已很冷了:這是以近知遠的道理。

一葉知秋,與嘗一臠肉,便能知一鑊之味,原理相同。而二者之先決條件,皆是母體的變異不能太大。也就是若樹葉變黃脫落的時間,每年都差不多是進入秋天時,以及整鍋肉的味道均差不多,便容易一葉知秋,及一肉知味。生活上,一葉知秋的現象處處可見。我們有時僅由嚐一粒葡萄,便據此來判斷整串葡萄,甚至整批葡萄之酸甜,以決定購買與否。僅抽幾cc的血,便能對人體做檢驗。而對動物的捕捉-再捕捉法,通常也是基於某類動物,每隻被捕捉到的機率皆差不多。但對於人的各種調查,只要族群不同,差異性往往不小,因此若取樣偏差,就不易以小明大、以近論遠了。

有些誤差是可容忍的。如大數法則指出,從母體隨機取樣(取出後放回,因而取出的樣本獨立且有共同分佈),當樣本數夠大,則樣本平均接近母體平均的機率將很大。而我們曾說過,即使取出後不放回,雖樣本間並不獨立,但只要取出的樣本數,與母體數相比很小,則大數法則與中央極限定理,便仍可引用,誤差不至於太大。只是如果取樣過度偏差,則不要說將無法一葉知秋,有時甚至連落葉多至滿坑滿谷,都無法知秋了。因此在取樣時,不可不慎。

假設擬估計某大學男女生之比例,到校圖書館點數閱覽桌上的男女生人數,以所得之男女比來估計全校之男女比。這樣能一葉知秋嗎?不見得可以,除非已知男女生去圖書館的比例很接近。否則若有某一性別,較習於去圖書館讀書,則所得估計之誤差便將不小。另外,能以某大學圖書館借出書籍多寡之排名,作為該校學生喜愛看的書之排名嗎?並不盡然。因學生看書,除了向圖書館借閱,至少還有購買的管道。

在抽樣調查裡,樣本的產生必須很公正,才能獲得有效的推論。若在選樣過程中,有排除(或多取)某一類樣本的傾向,便稱“選擇偏差”(selection bias,即“取樣偏差”)。底下來看一著名的,於執行選舉民調時,因取樣偏差,造成預測大錯誤之例。1936年的美國總統選舉,現任總統、民主黨籍的羅斯福(Franklin D. Roosevelt1882-1945)競選連任,挑戰他的是共和黨所推出,堪薩斯(Kansas)州的州長蘭登(Alfred Landon1887-1987)。彼時美國正從經濟大蕭條(Great Depression)中復甦,雖全國失業率仍超過10%,失業人口高達900萬,且人民的實際收入,比1929-1933年那段時期少了約1/3,但情況正開始好轉。絕大部分的政治觀察家,均預測羅斯福將輕易連任成功,蘭登則將不堪一擊。不過“文學文摘”(Literary Digest)雜誌,卻力排眾議,於投票日(1936113)3(1031),宣布他們的選前最後一次預測:蘭登將大勝羅斯福,普選得票率是57%43%。另外,美國總統選舉,採特殊的“勝者全得”(Winner-take-all)制。各州各有一定名額的選舉人(elector),所有選舉人,便組成選舉人團(Electoral College)。各州得票率最高的候選人,便囊括該州所有的選舉人票。那時在總共531張選舉人票中,“文學文摘”預測蘭登將獲得超過半數的370張,佔約67.68%。也就是現任的羅斯福,將黯然神傷地下台。此預測雖讓人驚訝,大眾卻不敢視為企圖嘩眾取寵。因“文學文摘”並非等閒之輩,在美國總統選舉的預測,夙負盛名。此雜誌自1916年起,開始預測美國總統選舉,包括1916192019241928,及1932年,此前5次,從未失手。

即使過去的預測,有如神機妙算,“文學文摘”這回卻栽了個大跟斗,黯然神傷的是他們,而非羅斯福。因羅斯福獲得普選票的60.8%,蘭登的得票率僅36.5%。而除美國東北部新英格蘭(New England)地區的緬因(Maine)及佛蒙特(Vermont)兩個小州外,羅斯福在那時全美48個州中的46個州勝出。選舉人票則獲壓倒性的523張,佔約98.49%,蘭登僅獲區區8張,約僅佔1.51%,離“文學文摘”預測的370張選舉人票,可說遠得很。不論普選票的60.8%,或選舉人票的98.49%,羅斯福的得票率,均是自1820年以來的最高。

“文學文摘”共寄出約1,000萬份問卷,回收約227萬份。那很可能是有史以來所做最大規模的一次民調,回收的問卷數也相當可觀。但怎會陰溝裡翻船呢?不是說只要成功樣本數有1,068,抽樣誤便就3%而已,如今成功樣本數有1,068的兩千多倍呢?不妨做個對照,前一年(1935)才成立的蓋洛普(Gallup)公司,那次僅用約5萬個樣本,便正確地預測羅斯福會贏,雖然得票率的估計有些誤差(預測羅斯福會獲得約56%的票,實際得票率約60.8%)

“文學文摘”是如何挑選樣本的?從其訂戶、電話簿,及一些俱樂部的會員名單。他們的訂戶中,共和黨員的比例,較美國人口中之比例高,共和黨員當然傾向投給共和黨推出的候選人蘭登。又在1936年,美國電話尚非那麼普及(平均約每4戶才有一具)。此外,沒有參加任何俱樂部者,也被排除了。換句話說,抽樣過程中,有排除窮人的傾向:明顯的選擇偏差出現了。在1936年之前,這種選擇偏差,對於預測的影響還可容忍,因當時富人與窮人的投票行為,差異還不是太大。但在1936年,因經濟的因素,造成選民的政治傾向有很大的分野:窮人較多選擇羅斯福,而富人則較支持蘭登。當有選擇偏差時,樣本數再怎麼多,便可能都無用了。選擇偏差,是造成“文學文摘”那回預測,會謬以千里之一主因。對“文學文摘”預測錯誤的檢討不少。選後40年,一篇於“美國統計學家”刊登的文章(Maurice C. Bryson (1976). The Literary Digest Poll: Making of a Statistical Myth. The American Statistician, 30(4), 184-185)指出,“文學文摘”該次誤差的實際原因(actual reason)為,其民調完全仰賴自願參與(voluntary responses),因而回收的227萬份問卷,遠非隨機樣本,而是選民中,對該次選舉議題較感興趣者。而羅斯福的反對者比起其支持者,更積極參與民調。另外,再12年後,一篇於“公共輿論季刊”刊登的文章(Peverill Squire (1988). Why the 1936 Literary Digest Poll Failed. The Public Opinion Quarterly, 52(1), 125-133)指出,取樣偏差加上“不回答的偏差”(non-response bias),造成“文學文摘”預測的錯誤。

我們略說明一下不回答的偏差。民調守則之一是,一旦決定受訪名單,就要儘可能去獲得他們的意見,一般這並不容易。當取出的樣本中,有過多沒有回覆或拒絕受訪者,將可能造成一嚴重的扭曲。有時不回答者與回答者的意見間,存在很大的差異。舉例而言,“文學文摘”在芝加哥(Chicago)所發出的問卷數約240萬,差不多是當時芝加哥全部選民人數的1/3,因而絕不能說問卷數不多。但回覆者才約20%!回收的問卷中,支持蘭登的超過半數。但選舉結果,羅斯福在芝加哥獲得約2/3之選票。另一方面,“文學文摘”對全國所發出的約1千萬份問卷中,只有比例不高的22.7%回覆。這22.7%回覆者的意見,不見得能代表全部被挑選出來之1千萬選民。一般而言,低收入與高收入二族群,不回答問卷之比率較高。也就是回收問卷中,來自中收入者,往往超過該有之比率。而中收入者的意見,與高收入或低收入者,並不見得會相同。由於有這種不回答的偏差,現代民意調查機構,對於重大或較敏感的議題,在時間及經費允許下,傾向採用電訪(或面訪),而非郵寄問卷。電訪(或面訪)之成功率通常能比郵寄問卷之回收率高很多。不過即使採用電訪(或面訪),不回答的偏差仍然存在。那些電訪(面訪)時人不在家者,與在家者之習性,如工作類別、家庭狀況、社會背景等,可能會有很大的差異,想法因而將大不相同。拒絕受訪者的情況也類似。好的抽樣調查設計,會正視不回答偏差的問題,而採用較巧妙的方法,以設法降低不回答率。總之,抽樣調查設計,並不僅是統計上的問題,還要結合諸如心理學、社會學,及經濟學等方面的知識。

   暫無回應
 回本區首頁 
  回應總數0  
 
 
  下一頁  
  
 
我要回應
姓 名: 回應前,請先註冊登入
E-mail:
內 容:
驗證碼:  (J4MU
 
 
:::
 
*

地  址:811高雄市楠梓區高雄大學路700號
電  話:07-5919362 傳真:07-5919360 e-mail: stat@nuk.edu.tw
更新日期:2024/4/11 上午 09:16:10

2003/10/20起第 9053242 位訪客
*