文、意如
什麼是資料?資訊?
什麼是結構化資料?半結構化資料?非結構化資料?
這些資料的優缺點分別是?
為什麼工程師一定要知道?
要了解什麼是結構化之前,我們首先需要認識什麼是資料?資訊?
什麼是資料?
資料可以是文字、圖片、數字、影片、音樂、檔案等,資料是蒐集而來的,也是未經過整理的。
例如:我們常常會到圖書館蒐集需要的資料。
什麼是資訊?
將蒐集的資料經過整理後,使其可較好閱讀並且有意義的資訊(資料)。
例如:我們需要將到圖書館蒐集回來的一堆未整理的資料整理成對我們有意義的資訊。
什麼是結構化資料?
將蒐集而來未整理過的資料,變成乾淨整齊有意義好閱讀的資訊也就叫做結構化資料。
如何將未整理過的資料結構化成資料的三大步驟:
1. 簡單的先畫個表格,並給予欄位
2. 值=寫入資料
3. 寫入的地方可以是一張紙或資料庫或Excel
如下表為結構化後的資料
結構化:先建結構才有資料,步驟如下:
1. 資料蒐集
2. 整理
3. 結構化資料
4. 資訊
5. 管理
結構化資料有什麼優缺點?
優點:好閱讀資料查詢快速、存儲空間少。
缺點:資料交換上較不易。
以工程師的角度,因為常常要做資料交換,如要處理結構化的資訊就需要將表格或儲存格內的文字再轉成程式陣列資料才可以任意使用資料,多了一道工作,所以盡可能建議不使用結構化好的資料來做資料交換。但以使用者的角度,只能接受有整理過的結構化資料。
所以一般工程師日常就是把未整理過的資料,整理成結構化的資料,讓使用者更好閱讀及管理。
什麼是半結構化資訊?
有資料,但還沒整理成好閱讀的格式。
例如: Json檔、csv檔 、xml檔都是屬於半結構性的資料。
半結構性的資料例如:JSON檔,參考如下圖:
半結構性的資料例如:XML檔如下圖:
我們可以將類似以上的檔案(半結構性資料),將它整理成結構化資料,如下圖變成可較好閱讀的表格式資料(結構性資料)
半結構化成結構化五大步驟如下:
1. 資料蒐集
2. 整理
3. 半結構資料
4. 結構化資料
5. 管理
資料搜尋後先整理成半結構資料後再建立整理成結構化資料,因為工程師常常會碰到資料交換的需求,所以整理成半結構資料通常是工程師的工作內容之一。
另外工程師也常常會需要將這些半結構性的資料整理成結構性的資料讓使用者更好閱讀。
半結構化資料優缺點?
優點:資料交換方便、新增資料欄位快速
缺點:無法像結構化表格易閱讀
所以就工程師的角度,最愛使用的是JSON格式(半結構式的資料)來做交換資料,因為不論是新增欄位或修改欄位都非常的方便,但是以一般使用者的角度看半結構性的資料是非常不易閱讀的。
所以我們在準備資料的時候,要考慮誰來使用這些資料,給一般使用者看的就是給結構化資料,如要給工程師的資料就給半結構性資料。
什麼是非結構化資料?
完完全全沒整理過的資料,例如:文字、音訊、網頁等等…
資料最原始的本質
這種資料最終還是需經過一番整理才能夠變成結構化資料
例如:網站上隨意蒐集來的資料欄位
將其變成結構化成資料(看得懂並有意義的資訊)
最後總結:
(一)整體的步驟如下
1. 資料蒐集
2. 整理
3. 資訊
4. 結構化資料
5. 最後才能用這些資料來管理
(二)非結構化資料、半結構化資料、結構化資料
1. 非結構化資料(未整理過的資料)
2. 半結構化資料(半整理過的資料,資料交換中最常見)
3. 結構化資料(已整理過的)
(三) 資料分析與管理
綜合以上為什麼工程師為什麼一定要知道這些數據型態?
因為工程師的日常工作最常就是處理這三種結構的資料,所以想當工程師的您務必先熟悉處理這三種結構化的資料。
Yiru@Studio - 關於我 - 意如