Gartner說,Big Data是高容量、高成長量、高變化性(下方會解釋)的資訊資產,能提高資訊用途,以協助我們進行決策,多數的文章大多採用這個定義;Wiki的定義則額外提到Big Data不是只談資料分析,應該更廣泛的談到資訊的取得、策展、管理與處理
有鑒於Big Data這個主題這一年來愈來愈紅了,我也花了一些時間看了一些資料,希望這個主題開了之後能持續的跟大家分享。
Big Data我習慣叫他海量數據,海量跟資料的意思大家都明白,應該不需多說,你一定不禁想問:「資料本來就很多,變得更多又怎麼樣?」,首先,我們先來看看Big Data的定義,我抓兩個比較常被拿出來提的:
Gartner說,Big Data是高容量、高成長量、高變化性(下方會解釋)的資訊資產,能提高資訊用途,以協助我們進行決策,多數的文章大多採用這個定義;Wiki的定義則額外提到Big Data不是只談資料分析,應該更廣泛的談到資訊的取得、策展、管理與處理,本篇文章我主要會針對這兩個定義所提到的概念進行說明。
3個V-Volume、Velocity、Variety
現在數據的增加量是每天2.5 quintillion bytes,quintillion這個詞可能大家都是第一次看到,我們先來看看下面這張表,quintillion byte大約就是下方的Exabytes,約莫等於10億GB,所以2.5 quintillion bytes=25億GB,這個成長量非常驚人,這些資料包含文字、影音、網頁、串流等,涵蓋的內容非常的多元。
- Volumn:數據量,大量資料的產生、處理、保存,談的就是Big Data就字面上的意思,就是談海量資料
- Velocity:這個詞我有看到幾個解釋,但我認為用IBM的解釋來說是比較恰當的,就是處理的時效,既然前頭提到Big Data其中一個用途是做市場預測,那處理的時效如果太長就失去了預測的意義了,所以處理的時效對Big Data來說也是非常關鍵的,500萬筆資料的深入分析,可能只能花5分鐘的時間
- Variety:多變性,指的是資料的形態,包含文字、影音、網頁、串流等等結構性、非結構性的資料
Volume、Velocity、Variety這金三角,已經成為大家談Big Data時最常提到的概念,簡單一句話來說明就是:「大量(Volume)且多元(Variety)的資料,必須以高時效(Velocity)完成取得、分析、處理、保存。」
Big Data不只談資料的分析
如果你要做社群網路分析或者賣場客戶行為分析,那你第一個要面臨的問題不是怎麼做分析,而是你怎麼取得這些數據,以Facebook來說,包含按讚、發文、打卡、回應、分享、瀏覽、點擊等每個動作都會被記錄下來;或者你是大賣場,你想要知道客戶在賣場中的動線是怎麼樣,所以你就在每台推車上安裝了RFID標籤,透過賣場中的sensor去抓客戶的動線,他們藉這樣的方式取得想要的資料,但你可以想想Facebook有近10億個使用者,一天會產生多少資料量?這些資料到底放在哪裡?要多少硬碟才夠放?這就產生了資料儲存、備份的問題,前面提到25億GB的資料,光是用1000GB的硬碟來裝,就要250萬顆了,疊起來都不知道幾棟台北101了;這兩個問題克服後,緊接著就是從這些資料中萃取出我們想要的內容,Facebook可能藉此去分析一個人的喜好、行為,投放他感興趣的廣告,推薦他感興趣的粉絲團或朋友,這就涉及資料的處理問題。
Big Data目前看起來是個很有潛力的趨勢議題,因為涉及的層面很廣,可以把過去一些相關的技術給帶進來,包含物聯網、雲端運算、In-memory computing、BI等,但與雲端運算一樣,如果沒有恰當的應用支撐,最後只會淪為技術議題,往後希望能多談一些Big Data的技術細節與應用案例。
游舒帆 (gipi) 探索原力Co-founder,曾任TutorABC協理與鼎新電腦總監,並曾獲選兩屆微軟最有價值專家 ( MVP ),離開職場後創辦探索原力,致力於協助青少年培養面對未來的能力。認為教育與組織育才其實息息相關,都是在為未來儲備能量,2018年起成立為期一年的專題課程《職涯躍升的關鍵24堂課》,為培養台灣未來的領袖而努力。 |