人們常說“一張圖片勝過千言萬語”(A picture is worth a thousand words)。這句話乃源自於二十世紀初期的美國新聞界,指新聞報導時,若能附上圖片或照片,會比講了半天,還更讓人知道到底怎麼一回事。提供圖片或照片,都算是圖示法。
圖示法用途廣泛,並不局限在新聞報導。以微積分為例。整個微積分裡,可說都在處理函數的問題。一個函數f(t),可能代表在時間t,某地區的瞬間雨量,或某物品的價格,而我們想解其中某種最佳化的問題。給定一函數,會討論該函數是否有漸近線(分水平漸近線及垂直漸近線),是否有極值(分極大值及極小值),是否有反曲點(inflection point,又稱拐點)等,若有就都找出來。討論函數的這些性質,也相當於學完極限及微分後的應用。一旦漸近線、極值及反曲點都決定了,便掌握函數的基本性質,於是就能將函數的圖形繪出。若繪不出正確的圖,表示對這些性質的內涵仍未了解透澈,仍停留在只懂數學的計算而已。圖形可呈現函數的各種“行為”,函數的走勢及變化,由其圖形皆能一目瞭然。
反過來,若有兩個量x,y,其中y隨x而變。即x為自變數,y為應變數。或簡單地說,y是x的函數。對n個不同的自變數x1,x2,…,xn,分別有應變數y1,y2,…,yn。在座標平面上,標示出n個點(x1,y1),(x2,y2),…,(xn,yn)。然後看圖說故事,只要x1,x2,…,xn取得夠密,有時能猜測出y與x有什麼關係。這只是猜測,下一步便是去證明,或找出背後的原理。科學上很多發現,都是依觀測、繪圖、猜測,及證明(或提出理論)的程序。如著名的“虎克定律”(Hooke’s law):在彈性限度內,物體的形變跟引起形變的外力成正比。因此在彈性限度內,彈簧的彈力F,和彈簧的長度變化量x成線性關係,即F=-kx,其中k為彈簧常數,依物體而定。虎克定律的產生,便是觀測出(x1,y1),(x2,y2),…,(xn,yn),有如落在一直線上,而得到的啟示。又如,若令h(t)表自由落體t時間後之位移,則h(t)=gt2/2,其中g為重力加速度,是一常數,其值約9.8公尺/秒2。這也是先觀測出(x1,y1),(x2,y2),…,(xn,yn)似乎落在一經過原點的拋物線上,而猜測h(t)是t的二次函數。在科學研究上,將觀測到的結果,先畫圖看看,可說是一基本動作。
在統計實務裡,對收集到的資料,會先做初步整理,如給出平均值及標準差,這些皆屬敘述統計(descriptive statistics)的範疇,能使人對數據,有些初步的印象。敘述統計還包含那些內容?統計圖便是一個。統計圖在資料分析的前置作業中,可說扮演著相當重要角色。中國統計學社自民國78年起,舉辦統計圖競賽。為深耕統計教育,連國小學生也可來參加。此競賽一直舉辦二十屆才停辦。在最後一屆,參賽作品中,國小及國中組有249件,高中(職)組有560件,社會及大專組有291件,總共1,000件。這麼多作品,可想見涵蓋主題之廣泛,及繪出圖形的琳琅滿目。統計圖並無固定形式,正如“黃貓、黑貓,只要能捉住老鼠就是好貓”,凡能更有助於讓數據說話,就是好的統計圖。
假設收集到的是一維數據(如某校學生之身高、英文測驗成績等),雖無固定形式,但仍有一些簡單但常用的統計圖。如點圖(dot plot,或稱dot diagram),莖葉圖(stem-and-leaf diagram),盒鬚圖(又稱長鬚圖,box-and-whisker plot,簡稱boxplot),分位-分位圖(quantile-quantile plot,簡稱Q-Q plot),及直方圖(histogram)等。這些圖的定義,可參考黃文璋(2003)。當然所謂常用統計圖,並不只前述幾個。針對不同的情況,可能各有其常用的統計圖。底下我們僅介紹直方圖。
直方圖的英文histogram,是由希臘文histos(豎立)及gramma(描繪)所組成,為英國統計學家皮爾生(Karl pearson,1857-1936)於1895年所引進。一般若數據很多,可先將數據按數值接近者,分成若干群。次將水平軸分成若干區間,每一區間以每一群之中點為中心,半徑自然便是每一群數據寬度之半。然後以所得區間為底,繪一長方形。長方形有多高?乃使每一長方形的面積,與該群數據的頻率(即個數),皆成正比。數據取值若不太多,或都取整數值,則也可讓每一數據自成一群。此時每一長方形的底部長度為1,中心在兩整數的中點。由於圖形是由一個個直立的長方形構成,所以才稱直方圖。
舉個例子來看。假設投擲一有6個面的骰子120次,又設1,2,3,4,5,6各面得到的次數,分別有16,24,22,19,18,21次。如此便可繪出其直方圖如圖1。
對直方圖,高度亦可取適當的尺度,使長方形的總面積為1。假設想知道某廠牌電池的壽命(即能用多久)之分佈。找一些電池來測試,記錄其壽命,並將收集到的數據繪出直方圖。看著那直方圖,有時可看出似與某機率分佈之機率密度函數(probability density function,縮寫為pdf)的圖形類似。很自然地,會猜測電池壽命可以該機率分佈當做模型。這僅是猜測,下一步便是做個統計檢定來確認了。另外,如前投擲一骰子120次,若骰子為公正,則各面出現的頻率應很接近,都在20次左右。但由圖1之直方圖,高低差有多達8次者,似有些大。骰子真的公正嗎?說不定該做個統計檢定。
好的統計圖,對讓人進一步了解數據,幫助極大。當沒什麼頭緒時,不妨就畫畫圖看看,然後決定下一步。
參考文獻
1. 黃文璋(2003). 數理統計. 華泰文化事業股份有限公司, 台北市.