國立高雄大學統計研究所-心在南方

:::

:::

主題：統計下凡(二十四)

發表者：黃文璋　Email:huangwj@nuk.edu.tw

日期：2021/11/21 下午 09:45:04

24 再談隨機取樣

生活裡，人們常提到“隨機取樣”一詞。如自區間[0 ,1]隨機取1點、自某班n位學生中，n≥3，隨機選3位學生去打掃、自0，1，…，9中，隨機取6個數字當提款卡密碼等。其中的隨機是什麼意思呢？隨機並非隨便，除非另有聲明，否則對於前述第一例，若以X表取中之點，則X有在區間[0,1]之均勻分佈；對於第二例，乃以“取出後不放回”的隨機取樣，抽取3位學生，即第1次，每位學生被取中的機率為1/n，第2次，每位學生被取中的機率為1/(n-1)，第3次，每位學生被取中的機率為1/(n-2)，也就是對編號1至n，每次取樣，會取中的號碼，皆有離散型的均勻分佈，分別是U[1,n]，U[1,n-1]，U[1,n-2]，但各次取樣間並不相互獨立；對於第三例，則以“取出後放回”的隨機取樣，自0，1，…，9，選取6碼。即每次取中的號碼，皆有離散型的均勻分佈U[0,9]，且各次取樣間為相互獨立。“隨機取樣”可說常與均勻分佈相連結。

現代統計學的鼻祖費雪(Sir Ronald Aylmer Fisher，1890-1962)，曾提到下述故事。在1920年代後期，某日的下午茶時間，有位女士對一群科學家宣稱，奶茶的調製順序，對風味有很大的影響。把茶加進牛奶裡，與把牛奶加進茶裡，兩者喝起來口味大不相同。當時在座不乏各領域的泰斗，對這種說法莫不感到可笑。難道不知a+b=b+a嗎？兩種混合方式的化學成分，會有什麼差異？眾人皆醒我獨醉，費雪卻很當一回事地看待此女士的見解。他設計了一個實驗步驟，包括要準備多少杯奶茶，及該依照什麼順序給這位女士喝，以對這女士的說法做一檢定。這就是有名的“淑女品茶”(lady tasting tea)實驗，乃費雪在他引進“實驗設計”概念的著作裡，所舉之例子。世上奇人異事著實不少，還有人宣稱能以手指識字呢！撇開費雪，我們不妨想想，該如何設計一合理的程序，以檢定某人是否真能判斷“奶茶是先放奶或先放茶”？

首先，該準備幾杯奶茶來測試？這並無定論，不妨就先採10杯。其次，那幾杯先放奶，那幾杯先放茶？有人以為該隨機放，而既然是隨機放，則先放奶與先放茶的杯數便宜相同，也就是各5杯；至於各那5杯？就“隨機挑”，有人這樣提議。如何執行呢？將杯子以1至10編號，隨口唸出5個號碼，那些編號的杯子便先放奶，其餘當然便先放茶。對此方式，有人可能立即表示反對，覺得這樣不見得能符合隨機性，主張用抽籤。因C(10,5)=252，這樣的組合數有252組，可準備252張字條，每張上有1至10中的某5個號碼，然後將字條全放進某袋子中。隨機抽取1張，其上5個號碼的杯子便先放奶，如此能全猜中的機率為1/252。對此亦有人指出，做252張籤太麻頃了，可就做1至10等共10個號碼籤放進袋子中，攪和後，依序抽取5個籤，那5個編號的杯子便先放奶，其餘則先放茶。這的確簡易多了。只是又有人指出，這樣並不算太難猜，該每杯隨機先放奶或茶。如在每杯奶茶製作前，先投擲1公正的銅板，若出現正面則先放奶，否則便先放茶。或者用一組亂數表，遇奇數則先放奶，偶數則先放茶。則全猜中的機率為1/2¹⁰=1/1,024。1,024為252的4.06倍多，如此顯然難猜多了。若覺得10杯全中，約千分之1的機率仍不夠小，則可採20杯，且每杯均隨機先放奶或茶。由於2²⁰=1,048,576，20杯能全中的機率，比百萬分之1還小，真有人這麼神奇，恐怕就只好先相信他了。反正若是招搖撞騙，遲早會失手。當然也會有人以為，不見得須要求20杯都講對，畢竟人難免會犯錯，而一般犯點小錯是可以容忍的。至於能允許多大的犯錯機率？可事先設定一α值，α為一不太大的正數，只要犯錯的機率不超過α，便接受該女士“能分辨奶茶是先放奶或先放茶”之假設，並換算出至少要講對幾杯。上述的流程，看起來相當有邏輯，之後便發展出一套假設檢定(hypothesis testing)的理論。

要知人的天性，通常是沒有隨機性的，若僅憑腦海中“隨便”想到那個數字就說出來，雖自以為隨機，但所產生的數字，很可能是極不隨機的。有些中學教室，講台上放一籤筒，以供任課教師上課點學生回答問題時用。籤筒的使用，亦可分取出後放回及取出後不放回兩種。放籤筒是免得教師自以為每次都是隨機叫出一個號碼，學生卻發現，教師常就是點那幾個號碼。一般而言，諸如提款機的密碼等，隨機選號是最難猜中的。假設是6碼，有人以為誰會想到1、2、3、4、5、6？遂以此做為密碼，偏偏人同此心。據統計，不僅在台灣，全世界最愛用的密碼即為1、2、3、4、5、6。若設定此為密碼，一旦提款卡遭竊，戶頭裡的錢，很快就被盜領了。

前面提過，隨機取樣常與均勻分佈相連結，因而口語裡的“均勻”，遂也屢會被聯想到隨機。有位母親在做芝麻餅，要讀大學的兒子幫忙灑芝麻，且要他灑得均勻些。兒子學過機率，想均勻就是隨機，遂隨機地灑芝麻。結果卻被母親責怪了，因有些地方芝麻很厚，有些地方很稀薄，相當不均勻。事實上，隨機的後果，常是不均勻。某新藥擬做實驗，負責人將受測者分成兩組，且宣稱採隨機分組。但若兩組分配的人數相同，將被懷疑並非真採隨機分組。教師點名學生，如果一學期下來，每位學生剛好都被點1次，也會被懷疑並非真的隨機點名。因隨機產生的號碼，即使是取出後放回，其中應很可能會有同號。底下給一例。

將10個球，隨機地投擲進10個箱子，則每箱中各有1球的機率相當小，為

10!/10¹⁰=3,628,800/10¹⁰=0.00036288，

即在隨機投擲下，極不容易很均勻地各箱中各恰有1球。現以a表上述機率，可求出事件“1箱中有3球、7箱中各有1球、2空箱”之機率為60a。此投擲後看起來相當“不均勻”的結果，發生之機率卻為很均勻的，每箱各有1球的機率之60倍。我們再給一些亦屬“不均勻”的事件之機率如下。

(a) 1空箱的機率為45a。

(b) 2空箱的機率為375a。

(d) 4空箱的機率為(7609/8)a。

(e) 5空箱的機率為(2,835/8)a。

(f) 6空箱的機率為(6,821/144)a。

(g) 7空箱的機率為(311/168)a。

(h) 8空箱的機率為(73/5,760)a。

(i) 9空箱的機率為a/9!。

可看出一直到7個空箱，其發生的機率，都比每箱中各恰有1球的機率大。換個方式說，若自10個箱子中，每次隨機取1個，連取10次，且取出後放回，則10次中，取中的箱子集中在其中某b個，b從3至9，其機率都比b=0(每箱都各被取中1次)容易發生，且集中在7個箱子(3空箱)最容易，發生之機率為980a。

類似的例子很普遍。如在著名的生日問題(birthday problem)裡指出，一團體裡，只要有23人以上，則其中至少有2人生日相同的機率，便大於1/2。也就是假設將23個球，隨機地投擲進365個箱子(即忽略閏年的情況)，則有某箱中至少有2球，比球皆投進不同的箱中，更容易發生。雖然箱子多達365個，而僅投擲少少的23球，都進不同的箱子，比至少有2球擲進同1箱中還難。事實止，一團體裡的n人生日皆相異之機率為

p_n=365×364×…×(365-n-1)/365ⁿ。

因而至少有2人生日相同之機率為

1-p_n=1-(365×364×…×(365-n-1)/365ⁿ)。

可解出n=22時，1-p_n≈0.411；n=23時，1-p_n≈0.507；n=40時，1-p_n≈0.891。由此知，一班只要有23人，有人生日相同的機率便超過1/2了，而若有40人以上，則至少有2人生日相同，根本輕而易舉，若發生完全不必驚訝，因機率高達約0.891。如果班級大一點，如n=64，則1-p_n≈0.997，幾乎必有2人生日相同了。

但若某人在小學時，班上才20多位同學，便有位生日與他相同，上國中後，尋尋覓覓，卻不只在班上，連全年級200個學生，都找不到一位生日與他相同，這是怎麼一回事？難道國中生的生日，較不隨機嗎？來看底下的推導。

假設一團體中，除某特定人外，另有n個人。則n個人中，至少有1人生日與該特定人相同之機率為

q_n=1-(364/365)ⁿ。

令q_n≥1/2，解出n≥253。得知若欲q_n≥1/2，所需的人數，比我們想像的多很多。亦即在一團體中，有任2人生日相同容易，但對某特定人，尋找有人生日與他相同，可就難多了。

樂透彩的頭獎號碼是隨機產生，且屬於取出後不放回，其中也屢有令人訝異的結果產生。就以42取6的樂透彩為例。開出的6碼全為偶數之機率為

C(21,6)/C(42,6)=54,264/5,245,786≈0.0103，

並不算太大。但6碼全為奇數、6碼全在1至21間，及6碼全在22至42間，機率也都約為0.0103。再加上6碼全為3的倍數、6碼全不為3的倍數，及某碼連續5期出現等，在開了很多期下，只要認真觀察，總會發現某些有趣現象，並不足為奇。除非經過統計檢定，否則不能就此斷言其中有弊，即號碼並非隨機產生。

在樂透彩裡，有些事件發生的可能性，遠比我們以為的大，仍以42取6的樂透彩為例。有連號之機率為

1-C(42-6+1,6)/C(42,6)=1-C(37,6)/C(42,6)≈0.5568>0.5。

即有連號比沒有連號更容易發生。因此不必因看到頭獎號碼裡，常出現連號，就產生懷疑。又，既然頭獎號碼裡，連號較可能比不連號多，那選號是否選連號較易中頭獎？這當然不對，任一組號碼中頭獎之機率皆為1/C(42,6)。

樂透彩中1次頭獎就很難了，怎可能中2次？美國紐約時報於1986年2月14日，在頭版刊登一則大新聞，有位Adams女士，第二度獲紐澤西(New Jersey)州樂透彩頭獎。前一年(1985年10月24日)她第一次中了390萬美元，第二次則獲150萬美元。兩次樂透彩，分別是39取6，及42取6，中頭獎機率分別是

1/C(39,6)=1/3,262,623，

及

1/C(42,6)=1/5,245,786。

新聞中強調，任何人一生當中，能2次中頭獎的機率為17兆分之1。這麼小的機率，顯然是由下述計算所得到：

1/3,262,623×1/5,245,786≈1/(17.115×10¹²)。

只是這樣對嗎？

若Adams一生中，就僅兩種樂透彩各買1張，則兩次皆中頭獎的機率，的確如上的約為17兆分之1。但她其實每期都買好幾張，且買了好幾年。不必太多，假設對39取6，及42取6的樂透彩，Adams每星期分別買3張及5張。則每星期至少中1張頭獎的機率為

1-(1-3/3,262,623)(1-5/5,245,786)≈1.87265×10^-6。

這是大於百萬分之1的機率。現設Adams以上述方式連買10年。就忽略她在一星期內中2張頭獎的情況，因那機率實在太小了。則在10年的約520個星期裡，利用二項分佈，並取近似，得她1次頭獎皆未中的機率為

(1-1.87265×10^-6)⁵²⁰≈exp(-520×1.87265×10^-6)≈exp(-9.737×10^-4)，

恰中1次頭獎的機率約為

C(520,1)×1.87265×10^-6×(1-1.87265×10^-6)⁵¹⁹≈9.737×10^-4，

令λ表至少中2次頭獎的機率，則

λ≈1-exp(-9.737×10^-4)-9.737×10^-4≈(1/2)(-9.737×10^-4)²≈4.734×10^-7。

λ約1千萬分之4.734，此值當然是微乎其微。紐澤西州人口超過8百萬，假設有k=50萬(=5×10⁵)人，皆以上述方式買樂透彩，又令Y表10年間至少2次中頭獎的人數，利用稀有事件法則，Y之分佈可以P(λk)來近似。因

λk=4.734×10^-7×5×10⁵=0.2367，

故

P(Y≥1)=1-P(Y=0)=1-exp(-0.2367)≈0.2108。

約0.2108的機率，已不能說太小了。同一人2次中頭獎，就算10年間未發生，20年間就容易多了，若有40年，發生就完全不稀奇。何況要上紐約時報的頭版，並非只能是紐澤西州有人2次中頭獎，任何1州都行，而美國有多達50州呢！那為什麼並沒頻繁地看到有人2次中頭獎的報導？財不露白，大部分的人，應連中1次中頭獎都不想曝光吧！

總之，在隨機取樣下，不論放回或不放回，事件發生可能性之大小，直觀並非屢屢可靠。而在觀察次數夠大後，各種原本罕見的事件，其發生常便稀鬆平常了。又，切記隨機取樣與“均勻”的連結，要很謹慎。

暫無回應

回本區首頁

回應總數0

姓名：	回應前，請先註冊或登入。
E-mail：
內容：
驗證碼：	（0TP3）

:::

地　　址：811高雄市楠梓區高雄大學路700號
電　　話：07-5919362 傳真：07-5919360 e-mail: stat@nuk.edu.tw
更新日期：2024/4/11 上午 09:16:10

2003/10/20起第

9054965

位訪客