1.接受機率與偏誤的存在,預測才會有意義
2.拿歷史數據用來建立模型,但世界在變,你必須要因時制宜,不斷的優化模型才能達到一樣甚至更高的精準度
3.raw data的正確性決定了模型的品質,也決定你預測的正確性
前一篇談了數據分析的基本觀念,接著談一個大家應該很有興趣的主題-預測。
當你手邊的資料充足了,分析歷史也都得到很好的結果,那是否能預測未來的結果呢?針對這個議題我看過的書籍或者網路查的到的資訊,通常有兩類說法:
1.過去表現不代表未來表現,所以無法預測(例如股票)
2.未來當然可以預測,但不可能達到100%的準確
我覺得上述兩個觀點的差別在於對「機率」的容忍程度,當你不允許有偏差時,你就會覺得無法預測,但如果你接受了預測會與現實有所偏差時,你就能接受一個60%正確機率的預測結果。
我拿天氣預報來做說明,我想你一定也有因為天氣預報不準而吃過苦頭的經驗,明明說不會下與結果下了一陣大雨,明明說豪大雨,你特別取消了出遊的行程,結果卻出了大太陽,而這樣的經驗讓你對氣象預報的信任度降低了。
但你會從此不再看氣象預報,改為憑個人經驗嗎?不會,因為你知道再怎麼不準,他的準確度仍比你盲目的亂猜來的準確。這就是我上週講的,只要比你本來更準這個數據就具有參考價值。
明天會下雨嗎?機率是多少?是大雨還是小雨?
根據不負責任的判斷(網路上我沒有找到比較有公信力的資訊),我想天氣預測是根據季節、空氣濕度、溫度、雲層、鋒面、氣壓、洋流等眾多數據所得出來的綜合判斷,有了這些數據是一回事,但如何解讀呢?
此時歷史數據的用途就來了,歷史數據可以用來建立模型,古代人如何做天氣預測呢?一派觀點是仰賴經驗,另一派則是認為他們在有限的數據支持下做判斷,而我認為經驗就是在有限的數據支持下所產生的判斷,古代人知道季節、節氣、風向,所以知道在夏天容易降雨,而過去的經驗裡,整個夏天大概有1/3的日子會降雨,而有1/10的日子會降下大雨,所以這就成了他們預測的基準,而過去經驗累積出來的固定pattern,你可以稱之為模型。
當你把夏天當成參數放到這個模型中,得出來的結果就很接近降雨機率1/3,大雨機率1/10,而你把冬天當參數放進去,得出來的結果可能是1/8與1/30,模型最簡單的用途就是如此,而當你有更多的數據做支撐時,你的模型準確度應該會愈來愈高。
假設氣象局從50年前開始收集各類數據,然後逐一加入或移除參數後完成目前的「數值天氣模式」,讓氣象預報的準確度從20%提高到50%,也讓降雨量預估從本來1~2,000 mm這種標準差極大的預測區間開始收斂到300~700 mm這種比較能被接受的結果,那已經是極大的進步了。
我在inside那篇文章(怎麼留住訂閱客戶?又怎麼透過數據找出有潛力的客戶?)中提到預測可能退費的客戶,其實這也是從歷史數據中不斷的找參數並建立模型而來的結果,當你把現在的客戶數據丟進模型裡面跑,它就會告訴你那些客戶符合這個模型中所認定的高退費風險族群,你就能針對這群客人做關懷,這遠比你盲目從上百萬筆客戶中找出這些人簡單多了,不是嗎?
做數據分析與預測,不用怕不準,但你要持續收集數據,並不斷優化你的模型。不管是自然科學或人文科學領域都可能會隨著地球環境、時代、市場的變遷而導致原先的參數無效,並衍生其他新參數,在什麼都不做的狀況下,隨時間推移,你的模型會愈來愈不準,要維持甚至提高精準度,你不優化模型是做不到的。
最後再談一下經驗法則,我們一般很難記得所有的數據,也無法像電腦一樣跑幾個算法後將數據整理好,舉例來說,我問你過去半年你搭乘過幾次捷運?分別是哪幾天?這兩個問題應該沒有人能清楚的回答,但有些生活模式相對固定的人,他們有機會算出一個很接近的結果,但要做到100%無誤,基本上非常難,但這就導致你的raw data有誤,連帶你的模型就會有偏差,結果當然也不一樣。
總結本篇:
1.接受機率與偏誤的存在,預測才會有意義
2.拿歷史數據用來建立模型,但世界在變,你必須要因時制宜,不斷的優化模型才能達到一樣甚至更高的精準度
3.raw data的正確性決定了模型的品質,也決定你預測的正確性
一些參考資料:
Weather Forecasting, Weather Indicators
https://www.weathershack.com/st…/ed-weather-forecasting.html
MarineWeather » Indicators
http://www.marineweather.co.nz/forecasts/indicators
Natural Weather Indicators and Folklore
http://www.downgardenservices.org.uk/folklore.htm
比較完誰的天氣預報準,然後呢?
http://pansci.asia/archives/95977
氣象預報為什麼會不準?
http://sa.ylib.com/MagArticle.aspx…
機器學習和統計模型的差異
https://read01.com/240Mnn.html
游舒帆 (gipi) 探索原力Co-founder,曾任TutorABC協理與鼎新電腦總監,並曾獲選兩屆微軟最有價值專家 ( MVP ),離開職場後創辦探索原力,致力於協助青少年培養面對未來的能力。認為教育與組織育才其實息息相關,都是在為未來儲備能量,2018年起成立為期一年的專題課程《職涯躍升的關鍵24堂課》,為培養台灣未來的領袖而努力。 |