文、意如
網路爬蟲要學什麼程式語言?從哪開始練基礎功?
文、意如
什麼是網路爬蟲?為什麼每一個工程師都要會?
文、意如
Python-爬蟲14-實作-爬取中華電信股票資訊
目標:中華電信股票資訊
https://www.google.com/search?q=TPE: 2412
抓取股票資訊
Python-爬蟲13-實作-2爬取PPT網站
目標: https://www.ptt.cc/bbs/Gossiping/index.html
- 到上一頁繼續尋找是否有今日文章
- 計算今天有幾篇文章
- 找出推文數大於3的文章,為熱門文章,並印出熱門文章的標題
- 把抓回來的資料 存成新檔.json
Python-爬蟲13-實作-3-爬取PPT網站(完整程式碼)
爬取PPT網站(完整程式碼)
Python-爬蟲13-實作-1爬取PPT網站
抓取PPT網站上的資料
目標位置:
https://www.ptt.cc/bbs/Gossiping/index.html
- 先把html全抓回來
- 紀錄一個cookie是否年滿18歲的變數
- 套件抓取今天日期, 去掉開頭的 '0' 符合 PTT 網站格式
- 取得上一頁href
- 抓取所有文章
- 判斷文章是否是今天發佈
- 取得推文數
- 取得文章連結
- 取得標題
- 取得作者
- 把我們要的資料整理好後,存入一開始的空陣列 後回傳(return)回去
Python-爬蟲-api-全球即時匯率API
全球即時匯率API
Python-爬蟲12-實作-3.爬取Yahoo奇摩電影的本周新片(完整程式碼)
目標網站:https://movies.yahoo.com.tw/movie_thisweek.html
(完整程式碼)
Python-爬蟲12-實作-2.爬取Yahoo奇摩電影的本周新片
1.抓取 上映日期 : 2020-11-20 中的日期
2.抓取 電影海報圖片的 <img src="url">
抓取目前位置的上一個層級
3.抓取預告片的 url
抓取目前位置的下一個層級
Python-爬蟲12-實作-1.爬取Yahoo奇摩電影的本周新片
#目標位置>>Yahoo>>電影>>Yahoo本週新片
#https://tw.movies.yahoo.com/movie_thisweek.html
if __name__ == '__main__':
webpage = check_req_url(yahoo_movie_url)
#print(webpage)
if webpage:
movies = get_week_new_movies(webpage)
#print(movies)
2.抓出所有的電影資訊
Python-爬蟲11-讀取表格內儲存格<td></td>內的資料
讀取表格內儲存格<td></td>圖片內的超連結
<td><a><img></a><td>
Python-爬蟲10-找出表格內的資料
找出表格內的資料
1.抓取表格的售價
2.計算所有商品的平均價格
Python-爬蟲9-找出所有的圖片、或者 .png / .jpg 結尾的圖片
1.找出所有 .png 或 .jpg 結尾的圖片
2.利用 regex 找出所有 .png 或 .jpg 結尾的圖片
3.找出所有 .png 結尾且含 'banner_pc_06.jpg
' 的圖片
Python-爬蟲8-找出所有 'h' 開頭的標題文字
找出所有 'h' 開頭的標題文字
Python-爬蟲7-抓取div裡面的元素
文、意如
Python-爬蟲6-當標籤中含特殊字元時, 使用 dict 取得元件
#當標籤中含特殊字元時, 使用 dict 取得元件
Python-爬蟲5-只抓指定的id名稱取得元件
只抓指定的id名稱取得元件
Python-爬蟲4-只抓指定標籤有套用css類別
1.只抓指定標籤有套用css類別 ,例如:<h3 class="article__title">
2.把標籤去除掉,只留下文字
Python-爬蟲3-抓取網站標籤、文字
1.抓取網站第一個<h3></h3>標籤
2.使用for迴圈抓取所有的<h3></h3>
- 1
- 2