國立高雄大學統計學研究所
最新消息 本所簡介 師資介紹 開設課程 教師成果 學生表現 學術演講 入學管道 學生園地 心在南方 表格下載 活動集錦 網路資源 關於我們
本站首頁 本校首頁 英文版
:::心在南方  
主題:數據素養(一)
發表者:黃文璋 Email:huangwj@nuk.edu.tw 日期:2015/3/2 上午 11:39:37

1 前言

大約從兩、三年前起,大數據(Big data)在台灣開始被廣泛重視,政府更有如發現治國良方。以行政院國家發展委員會為例,於民國103618日委託舉辦網入民意大數據下的輿情探索論壇又於民國104130日,先是訂出政學合作運用巨量資料分析協助政府施政之應用領域規劃,接著召開分組工作會議,在規劃中,便說是依據104113行政院國家資訊通信發展推動小組研商運用大數據分析進行前瞻施政規劃會議的決議辦理。從政府、學術界到民間,可說此起彼落,即使在你意想不到的地方,也不時會出現大數據三字。像是在泛科學網站上,有篇文章的標題便取為大數據與人道援助群眾標記應用。要談人道援助,也得先來個大數據。標題加上此三字,說不定可讓點擊次數提高不少。另外,有次在報上看到一則國立臺灣圖書館2014年讀者借閱統計之新聞,其中提到最熱門的圖書為偷書賊”(The Book Thief),最受歡迎的影片則為冰雪奇緣(Frozen)。覺得有趣,遂轉寄給在某大學圖書館服務的一個朋友參考,還順口問他們館裡是否有類似的統計?兩星期後收到回信,信中先表示他們原本對系統統計功能不是很熟,花了一些時間研究,以索書號進行分析,終於搜尋出去年(2014)的借閱結果。我不過轉寄一新聞,他們便認真地去探究,真是相當用心。信裡又說,系統似乎也可將索書號與讀者的類型做交叉分析只是他們的電腦跑太久後便當掉了,因此一時無法得到報表。至於熱門借閱和預約的排行榜過去並沒有做到這麼詳細,未來會找到處理的方法。接著說,在現今big data應用的趨勢下,我們的確應該更加關注讀者的借閱行為。你看關注讀者的借閱行為,也要帶上是與大數據有關。

大數據如此重要,好些學術機構,遂陸續成立大數據中心。有關大數據的研究,已成為顯學,令善於掌握先機者趨之若。而眾人開口閉口大數據,言談間,大數據彷彿成為有如瑞士刀(Schweizer Messer)的萬能工具,似乎只要祭起大數據,任何困難都能迎刃而解。不過大數據如此被推崇,倒也非人人認同。如中國時報民國104221日的社論標題,便為令人憂心的大數據治國

大數據又稱巨量資料、海量資料,或大資料。像是東吳大學已成立一校級的海量資料分析研究中心,且巨量資料管理學院也將於104學年起開始招生。雖有不同的稱呼,但都不如大數據響亮。上個世紀的九十年代開始,興起資料探勘”(Data Mining)的研究。面對資料,如何從中挖掘出有用的資訊?這當然是門重要的學問。資料探勘相當於大數據的前身,前者雖也曾引起一些風潮,卻遠遠比不上後者的全民化。實在是大數據三字太簡明易懂了,不像探勘二字,隱含著科學或工程,讓人覺得其中必有些專業,因而不敢輕易一探究竟。至於大數據,不過是大而已多麼可親!因此迅即人人琅琅上口了。

何謂大數據?首先,今日的數據,並不只是指數字而已舉凡文字、數字、符號、圖形、聲音,及影像等,都是數據,其中都含有資訊。依維基百科的說明,大數據幾乎無法使用大多數的資料庫管理系統處理,而必須使用在數十、數百甚至數千台伺服器上,同時平行運行的軟體。又說大數據由巨型資料集組成,這些資料集大小常超出人類在可接受時間下的收集、庋用(curation,源自於拉丁文curare,照料的意思)管理和處理能力。簡單講,大數據就是一台機器存放不下的資料量。當然隨著科技進步,大數據的大小,也會隨之改變。甚至大數據的界定,也與持有資料的機構之能力有關。有人以為天大地大的數據,他人說不定完全未放眼裡。至於數據大小的衡量,至少包含量(volume,指資料大小)、速度(velocity,指資料輸入輸出的速度),及多樣化(variety,指涉及的變數)等三方面。

不論資料探勘或大數據,所做的工作,大抵就是數據分析。數據分析很難嗎?只要將數據輸入電腦,有這麼多現成的軟體,不就立即得到各個面相的統計結果,何難之有?的確沒錯,很輕易便可得到要多少有多少的圖表,再發揮一些想像力加以說明,便是一份有模有樣的報告。只是如果不具備數據素養,就根本不知在分析些什麼。所得到的結果,精確度令人存疑不說,甚至可能扭曲一些現象,導致連參考價值都失去。因此處理數據者,若即使基本的數據素養都缺乏,如何侈言大數據?

大學入學考試中(簡稱大考中心),在其網頁上寫著,成立的目的是研究改進大學入學制度與技術並辦理大學入學考試。大考中心每年辦理學科能力測驗(簡稱學測)、指定科目考試(簡稱指考),及高中英語聽力測驗(簡稱英聽),掌握高中生入大學的管道。想進心目中理想大學的高中生,三更燈火五更雞,然後以大考中心提供的試題來驗收成效,再依大考中心提供的規則換算成績。一切都是大考中心說了算,大考中心可說相當威權,但夠不夠權威呢?

每次考試結束,大考中心便獲得一筆數據。不過十餘萬考生,且數據單純,僅是數字而已,因此怎麼看都不能算是大數據。雖不是大數據,那大考中心處理的如何?頗令好奇。大考中心歷次考試的統計,皆刊登於其網站,資料公開,容易取來檢視。底下我們便以大考中心為例,來看具備基本的數據素養,究竟是否容易?

   暫無回應
 回本區首頁 
  回應總數0  
 
 
  下一頁  
  
 
我要回應
姓 名: 回應前,請先註冊登入
E-mail:
內 容:
驗證碼:  (G53O
 
 
:::
 
*

地  址:811高雄市楠梓區高雄大學路700號
電  話:07-5919362 傳真:07-5919360 e-mail: stat@nuk.edu.tw
更新日期:2024/3/28 下午 01:15:41

2003/10/20起第 8910069 位訪客
*