[讀書心得]雲端時代的殺手級應用-Big Data海量資料分析

關於Big Data,我先前也有寫過三篇相關的文章,如果你對海量資料還不是那麼熟悉,可以去翻翻我之前的文章,或許會讓你對海量數據有多一分的理解,這本書主要並不在談論Big Data的技術議題,反而著重在其應用層面,不管是以前的雲端運算或者現在的Big Data,我的看法都很一致,技術不會是關鍵問題,而在應用,難得有這樣一本書來談論各個領域、行業、國家在Big Data的應用,若你想很快的了解Big Data到底可以怎麼用,這本書應該是個不錯的開始,這本書涵蓋醫療、政府、交通、金融、節能等各領域的案例,你可以在2-3個小時內看看Big Data的應用全貌。

雲端時代的殺手級應用:Big Data海量資料分析


這本書應該是第一本繁體,講Big Data應用的書籍,由天下雜誌於3/8出版,天下先把試讀本寄給了我,而我已經閱讀完畢,以下跟大家分享一下我的讀書心得。

關於Big Data,我先前也有寫過三篇相關的文章,如果你對海量資料還不是那麼熟悉,可以去翻翻我之前的文章,或許會讓你對海量數據有多一分的理解,這本書主要並不在談論Big Data的技術議題,反而著重在其應用層面,不管是以前的雲端運算或者現在的Big Data,我的看法都很一致,技術不會是關鍵問題,而在應用,難得有這樣一本書來談論各個領域、行業、國家在Big Data的應用,若你想很快的了解Big Data到底可以怎麼用,這本書應該是個不錯的開始,這本書涵蓋醫療、政府、交通、金融、節能等各領域的案例,你可以在2-3個小時內看看Big Data的應用全貌。

4V(Volume、Velocity、Variety、Veracity)
還記得在我第一篇Big Data文章中我曾提到Big Data定義中,多數人談到的是3個V,而本書中多談了一個V-Veracity,下方再簡單說明一下這4V:

  • Volumn:數據量
    大量資料的產生、處理、保存,談的就是Big Data就字面上的意思,就是談海量資料
  • Velocity:時效性
    這個詞我有看到幾個解釋,但我認為用IBM的解釋來說是比較恰當的,就是處理的時效,既然前頭提到Big Data其中一個用途是做市場預測,那處理的時效如果太長就失去了預測的意義了,所以處理的時效對Big Data來說也是非常關鍵的,500萬筆資料的深入分析,可能只能花5分鐘的時間
  • Variety:多變性
    指的是資料的形態,包含文字、影音、網頁、串流等等結構性、非結構性的資料
  • Veracity:可疑性
    指的是當資料的來源變得更多元時,這些資料本身的可靠度、品質是否足夠,若資料本身就是有問題的,那分析後的結果也不會是正確的

Veracity其實點出一個很關鍵的問題,過去的數據分析,資料大多來自於內部的系統,例如從客戶滿意度來分析使用者對產品的意見,在做滿意度調查時,我們往往會設計一份問卷,然後透過服務人員或者委託其他單位代為調查,將上萬份的問卷收集回來後再做分析,這些資料在可靠度上相對較高,但這種調查的問題在於,願意接受調查的人,往往已經對公司的產品抱持著一定的好感,而你並沒有接觸到那些對公司產品抱持不好觀感的客戶(連接受調查都不願意),以及那些對公司產品壓根兒不感興趣的人,若你真的想要改善產品、擴大市場,那這些人的意見對你來說,可能才是關鍵,所以你開始委託擅長社交分析的公司幫你分析在社群網路上大家是怎麼談論公司的產品,但因為來自社群網路的資料並非經過正式管道,有機制的被取得,所以真偽難辨,品質也很難被識別,若要依據這些網路上收集到的資料來做決定,其實是有很大的風險的,而這就是Veracity這個V所提出的觀點。

再用簡單的一句話來說明4個V:「大量(Volume)且多元(Variety)的資料,必須以高時效(Velocity)完成取得、分析、處理、保存,而這些資料本身必須要是可靠無虞的(Veracity)。」。

3I(Instrumented、Interconnected、Intelligent)
這3個I是本書中特別提到的,我個人覺得是挺有意思的,可惜談部分比較少一點,這3個I簡單的解釋如下:

  • Instrumented:物聯化
    以前我寫過一篇談論物聯網的文章,所謂的物聯化,其實談的就是當所有的物件都可以被當成一種資料生成裝置時,所有的物件自然有了生命,可被記錄其狀態、變化,過去我們輸入資料的裝置可能是電腦、手機、平板或者其他能讓我們進行錄影、錄音的裝置,但透過RFID或者其他感測裝置,我們能時時的記錄下一隻鳥、一朵花、一條河流的狀態,而這些狀態就是我們需要的資料,有了這些資料,我們可以讓這些物件們有了生命。
  • Interconnected:互連化
    這邊談的是M2M(Machine to Machine),這其實也是物聯網的其中一環,讓這些物件彼此做連結,例如現在你已經可以用手機控制電視,也能控制電腦,因為當兩者透過一些數據交換建立起連結,兩者就不再是單一的個體,而是互相連結的相關物件。
  • Intelligent:智能化
    如果還記得2011年時,IBM研發的華生電腦,在機智問答大賽上戰勝了兩位超強的高手,華生電腦有2800個處理核心,每秒運算能力高達80兆次,而其獲勝的關鍵在於充分運用內建的百科知識庫,當問題提出後,華生電腦立刻進行快速的搜尋、排序、分析,並挑選出最可能的答案,並作答,這就是智能化的結果。


更好、更廣、更有價值的應用資料
前頭是我們往下談之前的先備知識,讓我們能接著談論本書中提到的應用情境,本書引用了一些麥肯錫全球研究院的資料,而各行業使用Big Data的困難點與潛在價值這張表,其實已經可以用來貫穿整本書,包含不同行業的資料取得難易度、是否習慣用資料驅動業務、資料的變動性等等,對於資料,這份表彙整的還不錯,比較可惜的是在麥肯錫的報告中解讀的較少,這部份我想之後若我有做完完整的閱讀,再分享我個人的心得給大家吧。

本書以2/3的篇幅在討論不同行業的Big Data案例,例如用在零售上面,如何能更快探索出消費者的需求,更好的滿足客戶;在醫療上,如何提高早產兒的生存機率,以及加快關鍵醫療技術的發展;在政府部門,如何透過資料的分析,預先排定好警力的配置,有效降低犯罪率;在製造業,如何有效協調產銷;在金融業,如何有效防堵詐騙,並進行精準的行銷動作,這些案例在書中都有所著墨,在此我就不一一說明了,其中有些案例大家可能會有疑問-「這也算是Big Data嗎?」,例如做產銷排程,這不是很早以前就有了嗎?又例如客戶分析,這不是早在幾年前BI盛行時就已經存在了,為什麼現在還會被列入到Big Data來作為案例?

其實在看Big Data時,我們可以不用一一去檢視這些,過去做產銷排程是在已知的生產能量以及原料的供給狀態下去進行排程,但現在你可以進一步的去收集來自上游的各種供給資訊,將風險的部分也預估進去,另外也將生產線的機器的可用性(可能偶爾會壞掉,需要維修)列進去,最終可能可以得到一個比過去更全面的預估結果,而這必須仰賴比過去更多、更雜的資料來源,並設計更龐大的運算,所以你把它當成Big Data是OK的,我自己在看這本書的時候,我也曾不止一次陷入「這資料量似乎不大也不是那麼複雜,為什麼會被列進來當案例?」的迷失中,但當我把案例看的更仔細,背景查閱的更清楚後,我發現其中確實有些是過去所沒有思考到,而現在可以做的更好的點。

很高興看到一本書可以著重在應用層面的探討,先前我曾提過,現在的資料量愈來愈大,光是收集就有很大的困難,後續的保存、備份一樣涉及了不少技術性的議題,但最終這些被辛苦取得與保存的資料能否被應用才是關鍵,我自己簡單的整理在應用Big Data的一些基本程序以及該留意的點給各位參考:
image

首先是資料的價值,資料的存在一定有其目的,可能是在解決問題或者創造其他價值上頭,首先你必須要先知道你面對著什麼樣的問題,然後思考:
1.哪些資料對你是有價值的?

2.你要怎麼取得這些資料,包含從哪邊取得?怎麼取?以及多久去取一次?

3.取得之後很重要的就是保存,你要用什麼樣的資料型態保存它?是結構化的關聯式資料還是半結構化的文件?然後這些資料要被保存在資料庫還是Storage上頭?若你的儲存空間不夠大,那你也要思考你要保存的週期有多長,是一個月還是一年,這要視這些資料對你的用途與意義

4.你要怎麼用這些資料,未經整理與消化的資料不構成資訊,但若我們要解決問題,我們必須要從資料中萃取出有用的資訊,這通常跟前頭要解決的問題是有關連的

5.你要怎麼呈現這些已經被處理過的資料,是視覺化的圖表還是清楚的數據結果,這也要視你的狀況而定

關心Big Data也有一段時間了,心裡有幾個感想,藉著寫這本書的讀後心得一起講一講吧。

別只侷限於分析既有資料,探頭看看外部的資料吧
過去企業可能關切的資料大多在資料庫中,這些資料來自我們的ERP/CRM等相關系統,可能是交易性的資料、流水性的紀錄,這些資料有助於我們檢討過去做錯了哪些事情,例如透過每個月的業績資料,我們大概可以看到哪些月份我們做的特別好,哪些月份做的不好,並可以看出哪些產品賣的好,哪些賣的不好,並從數據中開始找尋可以檢討的點,然後去「推估與猜測」原因,這是很多企業經營的習慣,當然這個推估與猜測是可以透過經年累月的經驗累積而變得更加精準的,但我們也知道,這些資料都是要經歷過後才會存在,也就是問題已經發生了,我們才去尋求解決,但其實很多軌跡我們可能是可以透過外部資料來提早預測的,思考外部哪些資料可以幫的上忙,然後怎麼取得它,或許才是未來企業經營的關鍵。

別迷信內部資料,外部的可能更加真實
我想只要有服務客戶的公司,一定都會做「滿意度調查」這個動作,透過一些簡單的問題來確認客戶對我們的服務是否滿意,以及是否有其他建議,如果你有做過王品或者其他餐廳的用餐滿意度問卷,你可能會知道我想講什麼,我在講的是,很多的滿意度調查問卷,是在服務生一再叮嚀下才填寫的,又或者你真的受到讓人不開心的服務而想藉此發洩才寫的,至於對這家店感覺一般般的客戶,是有很大比例的人是不填寫的,對公司有好感的客戶填寫了,可能他們佔據了20%,對公司不滿意的客戶也填寫了,可能也站了20%,但中間那60%可能只有一部分的人有認真填寫,在這情況下,我們收集回來的滿意度是否還有參考價值?這一點我個人是存疑,因為我認為前後20%的客戶,我們都有機會去提供更好的服務,但中間那群不出聲的客戶我們幾乎無法得知他們心裡對我們的想法,他們並不表達意見,但他們可能回家後在Facebook上表達了他們的感受,而這個感受才是他們對我們的滿意度。

這反應了一個問題,那就是我們辛辛苦苦收集來的資料,其意義並不大,反而是那些我們未曾擁有的資料才真正有意義,所以,我們應該持續的思考哪些來源的資料,才真正有價值。

半結構化/非結構化的資料分析將愈來愈重要
處理結構化資料對我們來說已經是相對成熟的技術,也早已是每家企業的習慣,我們可以透過一些簡單的資料庫工具將資料取出,然後透過一些視覺化的工具來做呈現,用到的技術相對單純,但在處理半結構化或者非結構化的資料時,我們已經不再單單使用一些SQL語句,而包含到語意的解讀、語意的分析,資料內容的識別,包含語音、影像、文檔的內容識別,這些半結構/非結構的資料本來由人來解讀是簡單的,但因為資料量大,我們很難透過人腦來過濾與整理,必須要仰賴工具來輔助,所以如何有效的將半結構/非結構化的資料轉換成機器能閱讀能分析的內容,最後再將分析的結果轉換成人能夠閱讀的形態,這中間涉及的層面非常廣,能在技術全面cover的公司應該也只是少數,但值得慶幸的是已經有些成熟的產品在市場上,技術將不再是阻礙我們往前的絆腳石,但我們必須要思考哪些數據對我們才具有價值。

這一本書,談論的技術並不多,主要偏重在應用上頭,我一邊看一邊思考,透過案例以及數據,幫我把腦袋裡對Big Data的一些想法有脈絡的串了起來,如果你想要很快的了解Big Data是什麼,以及Big Data可以用在哪些地方,那這本書應該不會讓你感到失望。

游舒帆 (gipi)

探索原力Co-founder,曾任TutorABC協理與鼎新電腦總監,並曾獲選兩屆微軟最有價值專家 ( MVP ),離開職場後創辦探索原力,致力於協助青少年培養面對未來的能力。認為教育與組織育才其實息息相關,都是在為未來儲備能量,2018年起成立為期一年的專題課程《職涯躍升的關鍵24堂課》,為培養台灣未來的領袖而努力。