國立高雄大學統計學研究所
最新消息 本所簡介 師資介紹 開設課程 教師成果 學生表現 學術演講 入學管道 學生園地 心在南方 表格下載 活動集錦 網路資源 關於我們
本站首頁 本校首頁 英文版
:::心在南方  
主題:48 再談誤差
發表者:黃文璋 Email:huangwj@nuk.edu.tw 日期:2015/1/26 下午 02:48:11

我們很早便學到圓周率π,一開始給的值是3.14,準確到小數第二位,後來說是3.14159,準確到小數第五位。但我們一直知道,就算給再多小數位,皆非π的真實值,都只是近似。因π是一不循環的無限小數,也就是無理數。但給的小數位愈多,誤差便愈小。中學時在化學課裡,因實驗中會進行各種測量,而量器不論多精細,其刻度總是有限,於是我們又學到有效數字(significant figure)。在大學微積分裡,接觸各種複雜的函數,尚有所謂超越函數(transcendental function),但多項式還是我們最了解的。包含微分及積分在內的各種運算,對多項式而言都很簡易。後來便又引進泰勒展式(Taylor expansion),即以一數列的多項式,來逼近某一函數。但簡易歸簡易,多項式與函數到底有多接近?也就是誤差有多大?泰勒定理(Taylor's Theorem)即可給出誤差的大小。掌握誤差是很重要的。雖不斷在取近似值,但由於能夠一路掌握誤差的大小,因而太空船可順利登陸月球且返回地球時,落點與預估降落點,差距也不太大。

連數學上的計算,實際應用時都常免不了有誤差。處在此隨機世界,更是充滿誤差。我們經常在估計,估不準是常態,因此最好都附上誤差,否則估計準確到什麼地步,完全不知。我們經常在做判定,最好提供決策是在多大的誤差下接受的。雖不喜歡誤差,但既然無法避免,只好儘量了解它並學習如何與它共處。所以具備相當的誤差概念,是極必要的。

眾所皆知,電視公司都很重視收視率,因這與廣告收入息息相關。某時段某一電視節目的收視率,乃收視總人口與裝機總人口之比。可以經由電話、問卷調查,及機上盒等方式得到收視率。目前主導全台灣電視節目收視率調查的,是AC尼爾森公司(ACNielsen)。這是一家總部位於美國紐約市的國際市場調查研究公司。主要業務包括消費品市場的情況和動態、解決市場和銷售問題,以及確定市場發展機會。尼爾森公司自1994年開始在台灣從事電視收視調查。他們是怎麼調查收視率的?先抽出台灣1,800戶家庭,在其客廳中的電視安裝個人收視紀錄器”(People-Meter),以進行收視調查。尼爾森每天提供客戶,包括無線及有線頻道,各時段之收視率。

常有人質疑那1,800戶樣本究竟是如何產生?其收視習慣是否真能代表全台灣?一般來說,社經地位較高者,較在意隱私權,較不情願讓人來家中安裝收視記錄器。雖接受調查者,可獲得若干補助或贈品。但那些收入較高者,自然不太會將那些小惠放眼裡。此外,現今年輕人,常是經由網路視頻收看電視節目,也就較不易被調查到。因此透過收視記錄器所得到的資料,可能會有相當程度的偏差。尼爾森公司針對外界對有關調查的詢問,似從未正面回應。雖曾有人傳出,尼爾森公司的抽樣過程還算嚴謹,亦有監督流程的機制每年且會換掉20%的樣本戶,五年就全面更新一次,因此就抽樣而言,應經得起考驗。只是依據民國99年的人口及住宅普查,台灣地區有7445,949戶,1,800戶的樣本是否足夠?的確會令人存疑。而且相對於民調的每次抽樣,這樣至少一整年,仰賴同一批家庭的收視狀況,當做全台灣的收視率,恐怕就是難以被認為夠客觀。

在此不擬討論尼爾森公司的調查方法,而討論不少人疑惑的誤差比收視率大很多”之問題。在尼爾森公司網頁的電視收視率調查簡介項下,給出樣本數1,800+至於個人收視紀錄器裝設數”則為3,186+。有個+號,應表示實際數字有可能會多些。而裝設數3,186多於樣本數1,800,不知是否表示有些裝設個人收視紀錄器的家庭因某些原因,未被當做樣本。說實在,網頁上那個簡介的確是有夠簡的。號稱調查簡介,卻只列出一些數字及電視台等資料。有些數字還很過時,如簡介中的人口數(猜想是指台灣地區)項下為2,260萬,但依民國99年的調查,台灣地區有2,3123,866人。

曾有人針對5055台,那6個無線電視新聞台,對比尼爾森公司與凱擘股份有限公司的調查數據。並以民國10351920時這個時段,每15分鐘收視率為例。依照尼爾森的調查,得到的收視率排名依序為TVBS-N(2.13%)、年代(1.87%)、三立(1.84%)、東森(1.72%)、民視(1.47%),及中天(1.02%)。至於凱擘提供的收視率數據,排名則依序為:TVBS-N(2.00%)、東森(1.80%)、三立(1.19%)、中天(1.13%)、年代(1.05%),及民視(0.83%)。兩家公司對6無線電視新聞頻道的收視率調查,差異不算小,排名也大不相同,這些都暫表不提12筆數據中,最大的才2.13%,最小值則為0.83%。收視率都是這麼小的值,何以尼爾森公司調查的誤差值,卻會高達約2.3%

這麼說好了,假設量測某大學校園內各棟建築的間距,得到的值從幾十公尺、一百多公尺,到兩百多公尺都有。負責調查者,若宣稱誤差有230公尺,必會讓人不解。這麼大的誤差,比較像是在量台南到高雄的距離,而不是有關校園建築。因此對尼爾森公司調查收視率的誤差值,會有疑惑乃極合理。那2.3%的誤差到底如何得到?一般做民調時,在信心水準取成95%之下,抽樣誤差的(近似)公式為

d=0.98/n1/2

其中n乃實際成功訪問的樣本數。以n=1,800代入上式,即得d»2.31%。就是這樣來的。

持續投擲一出現正面機率為p之銅板n次,各次投擲間假設相互獨立,若以Sn表共得之正面數,則SnB(n,p)分佈,且相對頻率Sn/n,便常用來做為p之估計量。利用中央極限定理,可得p之一95%(近似的)信賴區間

[Sn/n-1.96((Sn/n)(1-Sn/n)/n)1/2Sn/n+1.96((Sn/n)(1-Sn/n)/n)1/2]

(近似的)信賴區間之半徑為

1.96((Sn/n)(1-Sn/n)/n)1/2

由於Sn/n介於01之間,故(Sn/n)(1-Sn/n)£0.25,這利用中學數學便可得到。於是((Sn/n)(1-Sn/n))1/2£0.5。因此便得(近似的)信賴區間半徑之一上界

1.96×0.5/n1/2=0.98/n1/2

這就是此一形式簡單之抽樣誤差公式之由來。

原本是95%(近似的)信賴區間之(近似的)半徑,後來被當做抽樣誤差。至於實際的抽樣誤差,是不是就這麼大呢?當然不是!例如如果一開始考慮99%的信賴區間,則將得到更大的抽樣誤差。我們只能約略地(畢竟過程中用到幾次近似)說,誤差有很大的機會(95%99%),不超過所給的抽樣誤差值。

想估計某地區民眾對某特定議題或某人物的支持率p,隨機抽取n個樣本來調查。由於是取出後不放回,樣本中支持的人數,並不會有二項分佈。但若所取的樣本數n與母體人數相比很小,則以二項分佈當模型誤差倒不致於過大。事實上此誤差通常不會太令人在意。主因是對人的調查本就很複雜,人甚至不會誠實回答問題。因此將取出後不放回視為取出後放回,所產生的誤差,比起其他各種可能的誤差,還算是小的。太執著於支持人數並無二項分佈這一點,將有如治絲益棼,或見樹不見林。雖整個過程問題重重,但我們至今大抵仍以如此取樣的方式來估計支持率,這乃沒有辦法中的辦法。只要過程很嚴謹,並具備夠好的邏輯概念,民調結果,仍值得參考。注意!僅能參考,並不能完全仰賴過程中,以0.5取代((Sn/n)(1-Sn/n))1/2,即將誤差放大,一方面讓公式簡潔些;一方面也有“彌補”的心理。因人與銅板畢竟大不相同,取大些的誤差,覺得較合理。

一般對某議題或某人物的支持率之調查,其值從接近0%接近100%都有可能,當然也常在50%附近。當Sn/n很接近0.5((Sn/n)(1-Sn/n))1/2,便很接近0.5。所以執行民調時,((Sn/n)(1-Sn/n))1/2的上界,常無法從0.5往下降。不過現今台灣電視頻道多達100個,因此大部分的頻道頻道收視率都高不到那裡去。假設經長期觀測,確信那6個無線電視新聞台,收視率均不至於超過3%。則前述近似誤差便能精準些,即

1.96((Sn/n)(1-Sn/n)/n)1/2£1.96(0.03×0.97/1,800)1/2»0.79%

此處利用到當x落在區間[0,a],其中0£a£0.5,則x(1-x)之極大值發生在x=a。相對於區區幾個百分比之收視率,0.79%之誤差,自然比2.31%之誤差,將讓人覺得更合理。

如果了解誤差公式是如何產生,尼爾森公司是可以對其收視率調查,提供更恰當的誤差0.79%,而不是有如食古不化,死守著d=0.98/n1/2那一簡潔的誤差公式,給出讓人疑惑不已的誤差。話說回來,如前所述,在整個流程屢讓人質疑下,更關健的誤差,很可能根本不在那誤差公式中。不論給出2.31%0.79%的誤差,不過點綴用,意義可能都不大。

對抽樣誤差有興趣者,尚可參考黃文璋(2014c)(2014d)兩篇文章。

參考文獻

1. 黃文璋(2014c). 在誤差範圍內? 科學人, 147(20145月號): 26.

2. 黃文璋(2014d). 差距多少才有效? 科學人, 151(20149月號): 29.

   暫無回應
 回本區首頁 
  回應總數0  
 
 
  下一頁  
  
 
我要回應
姓 名: 回應前,請先註冊登入
E-mail:
內 容:
驗證碼:  (MBS1
 
 
:::
 
*

地  址:811高雄市楠梓區高雄大學路700號
電  話:07-5919362 傳真:07-5919360 e-mail: stat@nuk.edu.tw
更新日期:2024/4/11 上午 09:16:10

2003/10/20起第 9010670 位訪客
*