什麼是網路爬蟲?為什麼每一個工程師都要會?

文、意如

會爬蟲的找工作很吃香?!在幾年前的確是這樣沒錯,

就跟英文一樣,以前的人總說”會英文”很吃香?那現在呢?

英文已經變成基本一定要會的科目了,

而爬蟲也已經演變成是工程師的基本技能,這個技能已經不會幫你加到什麼分數了,

但是如果你是個工程師或是你想成為工程師,爬蟲又會是一個必須所學的基本技能,

所以今天我們就來分享到底什麼是爬蟲,為什麼每一個工程師都會要會。

網路爬蟲web crawler,也叫網路蜘蛛(spider),在認識爬蟲之前,我們先來聊聊什麼是蒐集資料?

舉個例子,假設最近我想要領養一隻1~3個月身體有黑有白公的貓咪,

那接下來的每一天我就會到各大領養平台關注一下,看看有沒有貓咪是符合需求並且待領養的資料,

這個例子可以套用在任何商品、任何資訊身上(例如每天都會更新訊息的股票、機票、電影節目)等等相關的事物,

而這些資訊都是需要花時間去蒐集並分析歸類成我們所需的資料。


除了每天必須會花時間來做這些事,還得去篩選最新的資料,

再來就是可能也會漏看了幾筆資料,既又勞心、又勞力、又浪費時間,

又有可能找不到我們所需要的資訊。但這就是不論是個人或企業幾乎天天都在做的事情。

好,說了這麼多這些到底跟爬蟲有什麼相關?!

想想如果將上述這些蒐集並且重複性高的工作全都變成自動化呢?

例如:將蒐集回來的資料自動做分類,自動篩選想要知道資訊,沒錯這個就叫做網路爬蟲。

 

 

為什麼叫網路爬蟲,在簡單的說就是讀取網頁html從第一行讀(爬)到最後一行,

然後找到我們所需要的資訊把它抓回來,所以它也叫做網路蜘蛛。

 

 

當然爬回來我們所需要的資料後,就可以把它寫到我們的資料庫去,

再來這些資料就隨我們怎麼使用囉!


企業中或專案中用到最多爬蟲的地方?

案例1:

我自己做過的專案中,真的用爬蟲並且達到收益的專案90%以上都是電商平台,

網路商店,做電商最重要的就是如何找到廠商然後讓廠商的商品放到我們的電商平台上面賣。

但往往廠商要賣的商品最少也有1百多種多則1千種商品,

光是上架商品到我們的電商平台這件事,就讓大多的廠商打退堂鼓了。

 

 

那我們的電商平台要怎麼招商呢?!

別擔心!大部分這些廠商們的商品應該早都已經上架在露天、

PChome或者MOMO、YAHOO等這些電商平台,都已經在上面賣許久了。

假設該廠商有1千個商品都放在PChome,

這時候我們只要使用爬蟲技術寫一支程式到PCHOME把該廠商所有的商品資訊

(例如:商品名稱、價錢、庫存、商品詳細說明),等等的資訊抓回來後,

我們在寫一支程式將這些資料做上架就完成了。


完全不需要該廠商做任何事,這個大大減少廠商的麻煩,

得來全不費工夫就可以多一個平台來賣廠商的商品,用

這個方式大多數的廠商都可以接受,那電商平台賺什麼?

賺的是商品賣出的手續費還有廣告費等,越多人瀏覽商品或購買商品,

電商平台的收入就越高。


案例2

老闆或老闆朋友的股票資訊 — 這個雖然跟專案一點關係都沒有,

純粹就是方便能讓老闆每天追蹤自己買的股票資訊,但坦白說工程師們確實蠻常會接到這種小案子。

例如:老闆想分析一下最近石油的價格走勢,過幾天又想分析一下比特幣的走勢等等,

諸如此類的小需求。其實就當練練手,也挺好玩的。

所以爬蟲已經演變成所有網頁工程師的基本技能了,還不趕快學嗎?

 

下一篇:網路爬蟲要學什麼程式語言?從哪開始練基礎功?

 

Yiru@Studio - 關於我 - 意如