[SQL SERVER][SSAS] Data Mining(2)
4.探索模型
透過BIDS瀏覽模型來尋找值得參考的趨勢,
這裡我們用兩種模型不同角度去瞭解資料。
決策樹模型指出影響自行車購買行為的因素。
群集模型依客戶的自行車購買行為以及您選擇的其他屬性,將客戶予以分組。
決策樹模型
滑鼠停留在全部,可以看到案例總數,購買者(1)數目、非購買(0)者數目和遺漏數目。
可以看到年紀的影響程度是最高的。
背景設定1,快速查看目標值為購買者(1)的案例數目。
區塊顏色越深,表示案例百分比越高。
38>=年紀<45往下查看車輛=0 年紀區間 38~41 購買意願最高。
繼續展開往下追蹤
沒有小孩的案例高達94.57%以購買自行車。
有小孩的又以年收入>=74000 的案例高達93.23% 以購買自行車。
相依性網路:
顯示對於採礦模型的預測能力有所幫助的變數之間的關聯性。
預測自行車購買行為時,年齡和地區是重要的因素。
調整 所有連結 軸來識別最具影響力的屬性。
群集模型
透過群組模型角度查看購買自行車趨勢
群集圖表:群集之間的相似程度
陰影變數選擇:Bike Buyer 狀態:1
區塊陰影越深表示該群集以購買自行車買主密度越高。
透過所有連結篩選掉較弱的連結,並找出關聯性最近的群集
將最高密度和最低密度群集重新命名(Bike Buyer High and Low ),
並整理一下版面。
群集設定檔:檢視每一個群集的變數狀態分布情形。
分隔變數的分佈情形顯示成為著色圖列,其中最大數目的圖列顯示在 長條圖列 清單中。
連續變數是以鑽石圖顯示,代表在每一個群集中的平均與標準差。
點擊Bike Buyer High 排序變數
可看出購買自行車買主,小孩大多為 0、年紀平均44.56 正負2.55。
群集特性:更詳細地檢查每個組成群集的特性。
檢視Bike Buyer High群集,可以發現結果(機率)和前面的群集設定檔相同。
群集辨識:探索區分群集的特性。會計算群集之間的差異,並且顯示最能區分群集的屬性清單。
客戶間某些更重大的差異包括年齡、是否擁有汽車、小孩人數..等。
到這裡你應該已經知道如何利用採礦模型檢視器,
查看決策樹模型和群集模型圖示所代表的意義。
接下來我們將繼續測試和評估模型可用性,
以及使用模型來預測那些客戶最有可能購買自行車。