python 爬蟲練習-V2

2017-09-01

再開一篇

依處理方式可分成get、post，

如果是get就照正常的處理方式以findall()直接取得。

1-指定要爬的網頁

2-用findall()、find()指定要取得的元素名稱

3-印出想要的內容

4-將內容儲存

如果是post，

多一步，以submet的方式傳入指定網頁，

再取得post後回傳的資料，

接著跟get一樣，用findall()取得內容。

1-設定要傳入(登入)的值，以json放入params

2-用request.post()，指定網頁跟傳入參數

3-取回post後的內文

4-用findall()、find()指定要取得的元素名稱

5-印出想要的內容

6-將內容儲存

如果不通就檢查是否要有cookies、session的資料。

最後可以用selenium 來模擬開啟網頁，

效率慢，但是可以假裝人工瀏灠網頁。

自我LV~

自我LV1