python 爬蟲練習-V2

再開一篇 

依處理方式可分成get、post, 

如果是get就照正常的處理方式以findall()直接取得。 

 

1-指定要爬的網頁 

2-用findall()、find()指定要取得的元素名稱 

3-印出想要的內容 

4-將內容儲存 

 

如果是post, 

多一步,以submet的方式傳入指定網頁, 

再取得post後回傳的資料, 

接著跟get一樣,用findall()取得內容。 

 

1-設定要傳入(登入)的值,以json放入params 

2-用request.post(),指定網頁跟傳入參數 

3-取回post後的內文 

4-用findall()、find()指定要取得的元素名稱 

5-印出想要的內容 

6-將內容儲存 

 

如果不通就檢查是否要有cookies、session的資料。 

 

最後可以用selenium 來模擬開啟網頁, 

效率慢,但是可以假裝人工瀏灠網頁。 

 

自我LV~