統計抽樣

名詞解析

名詞: 簡單隨機抽樣(simple random sampling)
解釋:

在進行抽樣時不摻入任何人為因素 。母體的每一個體都有同等的機會被選中,且每次抽選與此次之前的歷次抽選無關。在進行此方法時,通常將所觀察的母體內每一個體,加以編號1-N,接著隨機地從這N個號碼中抽出我們想要的n個號碼(即預定的樣本數)。其次找出母體號碼中與這n個隨機號碼相同的個體, 這就是選出的樣本。

名詞: 分層抽樣(stratified sampling)
解釋:

調查的母體,可依某衡量標準,區分成若干個不重複的子母體,我們稱之為『層 』,且層與層之間有很大的變異性,層內的變異性較小。在區分不同層後,再從每一層中利用簡單隨機抽樣抽出所須比例的樣本數,將所得各層樣本合起來即為樣本。此處的比例就是該層的個體總數佔母體的比例。

名詞: 系統抽樣(systematic sampling)
解釋:

系統抽樣基本上是只做一次簡單隨機抽樣後,就採取依固定間隔數抽出一樣本。一般而言,若母體為有限,可將母體依序編號1-N,假設欲選取n個樣本,先決定區間間隔k,然後以簡單隨機抽樣從1-k中選取一數,此數做為起點,依序每k個單位選取一樣本。通常k取為最接近『N/n』的整數。

名詞: 群集抽樣(cluster sampling)
解釋:

當母體的底冊的蒐集及編造極為困難或龐大,而在調查時又希望節省成本時,可採用此種抽樣。群集抽樣的方法就是將母體分成幾個群集(或部落、區域),而群集間的變異小,群集內的變異大。再從這幾個群集中抽出數個群集進行抽樣或普查。有時群集抽樣又稱部落抽樣、叢聚抽樣。

 

生活中的實例

簡單隨機抽樣
某公司舉辦尾牙餐會,會中並有抽獎活動,為了獎勵員工這一年來的辛勞,公司提供一部汽車及若干家電作為抽獎用,與會的員工每人發給一張兩頭印有號碼的摸彩券(兩頭的號碼相同,且一半為存根聯,一半為抽獎聯),撕下其中的抽獎聯後投入摸彩箱中,然後由董事長將之攪拌均勻,依序請公司各級主管抽出摸彩券,以決定家電與汽車的得獎人。這就是簡單隨機抽樣。

 

簡單隨機抽樣
簡單隨機抽樣常用的作法之一,就是利用隨機號碼表。所謂『隨機號碼表』,就是依機率法則所編制,又稱亂數表),使用方法就是選取其中的任幾行或任幾列,直到選出欲抽樣的個數為止。所取成的樣本便為隨機樣本(random sample)。 表1為隨機號碼表的其中一部份。其中由左至右,每遇一數字為一行; 由上至下,每遇一數字為一列。

29280 39655 18902 92531 90374 07109 26627 59587 84340 98351
20123 82082 55477 22059 43168 12903 13436 25523 21090 73449
66405 35287 33248 67657 07702 01474 66068 01125 59258 30138
97299 83419 13069 17826 76984 48906 10567 17829 00723 46700
83923 92076 98880 33942 46841 58731 36513 16681 88722 61984
11258 92175 94894 97606 11134 51941 43733 00514 06694 27706


1. 隨機亂數表
 

簡單隨機抽樣
設某班有50位學生,欲從中選出5位學生參與『校長與同學座談會』。首先我們將班上學生加以編號1~50,其次藉助表1的第1列,一次讀取兩個數字,則頭9個『2位數字組』為

29 28 03 96 55 18 90 29 25

因96, 55, 90大於50,該號碼的學生均不存在,又29出現兩次,也只能選1個,所以選出號碼為29, 28, 03, 18, 25的學生。

若藉助表1的第5列,同樣一次讀取兩個數字,則頭11個『2位數字組』為

83 92 39 20 76 98 88 03 39 42 46

因83, 92, 76, 98, 88大於50,該號碼的學生均不存在,又39出現兩次,也只能選1個,所以選出的號碼為39, 20, 03, 42, 46的學生。

 

簡單隨機抽樣
假設某校共有七輛交通車(分別編號1, 2, 3, 4, 5, 6, 7), 想從中選出三輛車做為參觀工廠用,藉助表1的第2列,一次讀取三個數字,以135表出動編號1、3、5號的校車,餘類推。則前8個『3位數字組』為

201 238 208 255 477 220 594 316

只有316符合條件,即出動編號3、1、6號的校車。若藉助表1的第6行, 一次讀3個數字, 則可選出217, 即出動編號2、1、7號的校車。

 

簡單隨機抽樣-徵兵抽籤
美國1970年舉辦的首次越戰徵兵, 所有19到25歲的男性都是這次抽籤的對象, 首先負責單位將1年366個日期(考慮閏年)分別放進一模一樣的塑膠球內,再放進箱子裡。然後公開一個個抽出。最先被抽到的日期, 生日為那一天的人最先被徵召, 然後就是在第2個抽到的日期出生的人,以此類推。

一些新聞記者注意到, 12月份出生的人似乎傾向較容易被先抽出。統計學家也指出這個傾向太強了。後來調查發現, 塑膠球是一次裝一個月份, 再放進箱子內, 又沒混合均勻。 所以1月份的生日容易在底下, 而12月份的生日是最後裝進去的, 容易在上面。

第二年, 美國國家標準局, 便請統計學家設計抽籤程序。他們的設計很複雜: 先把1到365的數字(這回不考慮閏年)依隨機亂數表決定的隨機順序放進塑膠球中,然後把一年365個日期也依同樣方式放進塑膠球中。其次, 日期塑膠球在依隨機亂數表決定隨機順序放進滾筒裡, 數字塑膠球也利用同樣方式放進另一滾筒裡。兩滾筒都滾動整整一小時。電視攝影機開機了, 一位貴賓把手伸入日期滾筒, 抽出9月16日;再把手伸入數字滾筒, 抽出139號。於是9月16日出生的人得到徵兵序號139號。再從兩個滾筒,抽出4月27日及徵兵序號235。如此這般繼續下去。雖然複雜, 但是是很隨機的。

<資料來源:鄭惟厚譯(1998) 統計, 讓數字說話>

 
分層抽樣
某高中共有2700位學生,欲從中抽取120位學生作為樣本,設有1620位男生,1080位女生,若用簡單隨機抽樣抽出120位學生,抽出的結果可能女生過多,或男生過多,甚至也可能抽出沒有一個女生, 或沒有一個男生。若是想調查全校學生的平均身高,則男女之間的差異就很大,若選取過多女生,這樣就會影響到最後調查的結果。因此最好的方式就是採用分層抽樣,按男女的比列3:2來選取。在男生部分抽取120×0.6=72位,女生部分抽取120×0.4=48位,其次在男女生中,利用簡單隨機抽樣分別抽出72人, 48人, 此120人便構成我們要的樣本。
 
分層抽樣
交通部觀光局為瞭解週休二日制度實施後, 對國人國內旅遊的影響及改變, 於87年首次辦理『週休二日實施對國內旅遊的影響調查』, 以提供政府及旅遊相關業者參考之依據。

以各縣市之住宅電話號碼簿做為抽樣清冊, 即抽樣母體之來源。抽樣方式採分層抽樣法:臺灣地區依北、中、南、東分為四層,各層依照層內戶數占台灣省總戶數的比例分配樣本數;層內各縣市再依照其戶數比例分配其樣本。預計樣本數1,500人。以電話訪問調查, 居住在臺灣地區之家庭住戶內十二歲以上之國民, 且就讀學校或服務單位已實施週休二日或隔週休二日者。<資料來源:行政院主計處>

系統抽樣
某製造燈泡的工廠,計畫生產5000個燈泡,想從中抽取50個樣本,以了解不良品的比例,若採取系統抽樣,則依5000個燈泡生產的順序,做為假想的編號,其次決定抽樣區間k,k=5000/50 =100,然後從1至100中以簡單隨機抽樣抽出一數,做為起始點,如抽出35,最後只要每生產第100個燈泡,便將該燈泡抽出,即生產順序為35,135,235,335,…,4935的燈泡,就被抽出做為樣本。

 

群集抽樣
假設某公司想調查高雄市市民每月消費在甲產品的支出,計畫在所有11個行政區中隨機抽出4個行政區,然後再從被抽出的行政區中隨機抽出一條路(街)(如遇街道跨區時,則僅調查屬於該區的住戶),然後普查該條路(街)的所有住戶。這就是群集抽樣。