海量數據的應用情境之多,其實可能遠超大家想像,不是只有那些基因演算、國防軍事、海嘯預測等資料量龐大到嚇人的情境才會需要海量數據技術,因為沒有人可以告訴你超過100萬筆或者100萬GB的資料才叫海量,這個海量的定義是隨著你的需求而定義的,就算你有1億GB的資料,但你沒有運算分析的需求,那你可能也用不到海量技術,若你有1億GB的資料,但你可以忍受他算個一兩年才有結果產生,那你可能也不需要海量技術,根據之前我們談過,當你需要在一定的時間內對大量的資料做處理時,你可以考慮使用
海量數據的應用情境之多,其實可能遠超大家想像,不是只有那些基因演算、國防軍事、海嘯預測等資料量龐大到嚇人的情境才會需要海量數據技術,因為沒有人可以告訴你超過100萬筆或者100萬GB的資料才叫海量,這個海量的定義是隨著你的需求而定義的,就算你有1億GB的資料,但你沒有運算分析的需求,那你可能也用不到海量技術,若你有1億GB的資料,但你可以忍受他算個一兩年才有結果產生,那你可能也不需要海量技術,根據之前我們談過,當你需要在一定的時間內對大量的資料做處理時,你可以考慮使用。
電子商務購物車的應用情境
上面是題外話,重點是最後的那句,如果資料量不大,那一般的計算機就可以算完了,如果沒有時間限制,那你用簡單的電腦讓他慢慢算也是算的完,只有那些資料量大且有時效性的情境較適合用上海量技術,而這篇就舉一個很簡單的例子,下圖這是博客來的購物畫面,大家應該對這種購物車的功能不陌生:
如果你有特別留意,那你應該會發現在這個商品頁面中會有以下的資訊:
還有這個資訊:
博客來還會告訴你以下資訊:
「買了這本書之後你還可以看哪些書」
「買了這本書的人還買了哪些書」
「瀏覽了這本書的人還瀏覽了哪些書」
或者進一步:
「有新書推出,這本書您應該會喜歡」
「你的朋友買了這幾本」
如果你是個寫程式的人,你可能會說這功能有什麼難的,就用SQL來一兩個join就出現啦,但你可以想想,當你把資料量放大成100萬*100萬時,事情是否還有想像的那麼簡單?如果博客來有100萬個會員,然後有100萬本書,那當你透過join,效率如何快的起來?而規模更大的Amazon又是什麼樣的規模?或許博客來底層的架構不是透過海量數據的技術來實現的(方法很多,例如做暫存的view或者透過memcache技術等作法),但這就是一個很明顯可以運用海量技術的情境,因為它滿足了大量資料與時效兩個要求。
所以未來不管是社群網站或者是電子商務網站都有機會可以用到海量數據的的技術,以協助他們更精確的提供給用戶所需的資訊。
分類已經不再只是分類
在過去,不管是填寫會員資料的喜好,或者是在網站中的選單,這些都是很單純的一種基本資料,但現在可不一樣了,當你在個人基本資料中選擇了你喜歡閱讀,網站就會幫你貼上一張標籤「書籍」,所以你就此跟書籍雜誌產生了弱關連,而若你持續的在網站上瀏覽與書籍相關的分類,那你跟書籍雜誌漸漸的就產生了強關連,若你看的總是「行銷企管」類的書,你就會被貼上兩個標籤「書籍」、「行銷企管」,這些標籤就是網站對你的分類,也是他們對你的了解,其實進一步還有喜歡的作者、常用的關鍵字等等,都會是他們對你貼上的標籤。
標籤愈來愈多,網站對你的了解就愈多,漸漸的他們就會依你的喜好投放廣告給你,或者推薦你可能會感興趣的商品給你,這些都是需要經過大量運算的,但使用者是沒辦法接受點開一個網頁後要兩分鐘,使用者忍耐的極限可能只有五秒鐘,五秒鐘我就要看到完整的內容,包含你需要做大量運算的那些東西(前面那幾個問題),這時候海量技術就可以派上用場了。
海量技術的應用其實可以很普及,可以用的情境也很多,只要你符合大資料量+有時間限制,你就能考慮使用它。
游舒帆 (gipi) 探索原力Co-founder,曾任TutorABC協理與鼎新電腦總監,並曾獲選兩屆微軟最有價值專家 ( MVP ),離開職場後創辦探索原力,致力於協助青少年培養面對未來的能力。認為教育與組織育才其實息息相關,都是在為未來儲備能量,2018年起成立為期一年的專題課程《職涯躍升的關鍵24堂課》,為培養台灣未來的領袖而努力。 |