文、意如
網路爬蟲要學什麼程式語言呢? PHP?JAVA?Python?還是其他程式語言?
這是目前聽到最多人問的問題了,所以今天就來探討一下這個主題吧!
快速介紹一下網路爬蟲,簡單的說網路爬蟲其實就是去網路上抓取網頁上的任何資料,
蒐集資料。更詳細說明請參考上一篇文章:什麼是網路爬蟲?為什麼每一個工程師都要會?
抓取網頁上的資料(爬蟲)要做什麼?
把網路上的資料抓回來後再經過我們整理成為有用的資訊,再存在我們自己的資料庫,就可以任意使用了。
爬蟲需要會什麼程式語言呢?
其實呢學什麼程式語言並不重要,因為每一種語言幾乎都可以做到任何你想要的功能,
對工程師來說程式語言只是一個工具,差別只是在使用起來方不方便,執行的快不快速跟好不好維護。
以程式語言像是php、java、python、node.js等選擇任一個語言都能做到爬蟲
(因為現在的套件)非常多,這邊的套件指的是人家做好的功能,
我們只要把套件引入我們的專案內,再傳入幾個參數就可以使用了。
因此你可以使用你熟悉的語言玩玩爬蟲。
但如果要以快速上手的語言,這邊就比較推薦python或 node.js
這兩種語言都只需要幾行程式碼跟幾個簡單的語法就可以把資料爬回來了。
網路爬蟲要從哪裡開始學?先練基礎功
網路爬蟲主要是抓網頁上面的資料,所以當然一定是從最基礎網頁語法HTML開始學起,
例如我們要抓取網頁的標題,這時候在下語法時就要去抓名為<title> </title>標籤內的文字。
為了我們爬蟲可以更順利抓到更多想要的資料,除了標籤HTML外,
基本的css和javascript也需要略懂略懂。
例如我們要抓的資訊也有可能是包在css樣式中的文字,
像是<span class=”first_word”>門市資訊</span>等等…
所以想要爬蟲第一步建議先把網頁語法學好,
等基礎功都練熟站穩腳步後再用你習慣的語言(python或java或php或node.js)等其他程式語言把網頁中的資料爬回來。
最後把資料抓回來後集中整理,通通存入我們自己的資料庫中,結構化成我們可較好閱讀的資訊。
Yiru@Studio - 關於我 - 意如