1 前言
大約從兩、三年前起,“大數據”(Big data)在台灣開始被廣泛重視,政府更有如發現治國良方。以行政院國家發展委員會為例,於民國103年6月18日委託舉辦“網入民意─大數據下的輿情探索論壇”;又於民國104年1月30日,先是訂出“政學合作運用巨量資料分析協助政府施政之應用領域規劃”,接著召開分組工作會議,在“規劃”中,便說是依據“104年1月13日‘行政院國家資訊通信發展推動小組─研商運用大數據分析進行前瞻施政規劃會議’的決議辦理”。從政府、學術界到民間,可說此起彼落,即使在你意想不到的地方,也不時會出現“大數據”三字。像是在“泛科學”網站上,有篇文章的標題便取為“大數據與人道援助─群眾標記應用”。要談人道援助,也得先來個大數據。標題加上此三字,說不定可讓點擊次數提高不少。另外,有次在報上看到一則“國立臺灣圖書館”2014年讀者借閱統計之新聞,其中提到最熱門的圖書為“偷書賊”(The Book Thief),最受歡迎的影片則為“冰雪奇緣”(Frozen)。覺得有趣,遂轉寄給在某大學圖書館服務的一個朋友參考,還順口問他們館裡是否有類似的統計?兩星期後收到回信,信中先表示他們原本對系統統計功能不是很熟,花了一些時間研究,以索書號進行分析,終於搜尋出去年(2014年)的借閱結果。我不過轉寄一新聞,他們便認真地去探究,真是相當用心。信裡又說,系統似乎也可將索書號與讀者的類型做交叉分析,只是他們的電腦跑太久後便當掉了,因此一時無法得到報表。至於熱門借閱和預約的排行榜,過去並沒有做到這麼詳細,但未來會找到處理的方法。接著說,“在現今big data應用的趨勢下,我們的確應該更加關注讀者的借閱行為”。你看!關注讀者的借閱行為,也要帶上是與大數據有關。
大數據如此重要,好些學術機構,遂陸續成立“大數據中心”。有關大數據的研究,已成為顯學,令善於掌握先機者趨之若鶩。而眾人開口閉口大數據,言談間,大數據彷彿成為有如瑞士刀(Schweizer Messer)的萬能工具,似乎只要祭起大數據,任何困難都能迎刃而解。不過大數據如此被推崇,倒也非人人認同。如中國時報民國104年2月21日的社論標題,便為“令人憂心的大數據治國”。
大數據又稱巨量資料、海量資料,或大資料。像是東吳大學已成立一校級的“海量資料分析研究中心”,且“巨量資料管理學院”也將於104學年起開始招生。雖有不同的稱呼,但都不如大數據響亮。上個世紀的九十年代開始,興起“資料探勘”(Data Mining)的研究。面對資料,如何從中挖掘出有用的資訊?這當然是門重要的學問。資料探勘相當於大數據的前身,前者雖也曾引起一些風潮,卻遠遠比不上後者的全民化。實在是大數據三字太簡明易懂了,不像“探勘”二字,隱含著科學或工程,讓人覺得其中必有些專業,因而不敢輕易一探究竟。至於大數據,不過是大而已,多麼可親!因此迅即人人琅琅上口了。
何謂大數據?首先,今日的數據,並不只是指數字而已。舉凡文字、數字、符號、圖形、聲音,及影像等,都是數據,其中都含有資訊。依“維基百科”的說明,“大數據幾乎無法使用大多數的資料庫管理系統處理,而必須使用在數十、數百甚至數千台伺服器上,同時平行運行的軟體”。又說“大數據由巨型資料集組成,這些資料集大小常超出人類在可接受時間下的收集、庋用(curation,源自於拉丁文curare,照料的意思)、管理和處理能力。”簡單講,大數據就是一台機器存放不下的資料量。當然隨著科技進步,大數據的大小,也會隨之改變。甚至大數據的界定,也與持有資料的機構之能力有關。有人以為天大地大的數據,他人說不定完全未放眼裡。至於數據大小的衡量,至少包含量(volume,指資料大小)、速度(velocity,指資料輸入輸出的速度),及多樣化(variety,指涉及的變數)等三方面。
不論資料探勘或大數據,所做的工作,大抵就是數據分析。數據分析很難嗎?只要將數據輸入電腦,有這麼多現成的軟體,不就立即得到各個面相的統計結果,何難之有?的確沒錯,很輕易便可得到要多少有多少的圖表,再發揮一些想像力加以說明,便是一份有模有樣的報告。只是如果不具備數據素養,就根本不知在分析些什麼。所得到的結果,精確度令人存疑不說,甚至可能扭曲一些現象,導致連參考價值都失去。因此處理數據者,若即使基本的數據素養都缺乏,如何侈言大數據?
大學入學考試中(簡稱大考中心),在其網頁上寫著,成立的目的是“研究改進大學入學制度與技術並辦理大學入學考試”。大考中心每年辦理學科能力測驗(簡稱學測)、指定科目考試(簡稱指考),及高中英語聽力測驗(簡稱英聽),掌握高中生入大學的管道。想進心目中理想大學的高中生,三更燈火五更雞,然後以大考中心提供的試題來驗收成效,再依大考中心提供的規則換算成績。一切都是大考中心說了算,大考中心可說相當威權,但夠不夠權威呢?
每次考試結束,大考中心便獲得一筆數據。不過十餘萬考生,且數據單純,僅是數字而已,因此怎麼看都不能算是大數據。雖不是大數據,那大考中心處理的如何?頗令人好奇。大考中心歷次考試的統計,皆刊登於其網站,資料公開,容易取來檢視。底下我們便以大考中心為例,來看具備基本的數據素養,究竟是否容易?