1.抓取 上映日期 : 2020-11-20 中的日期
2.抓取 電影海報圖片的 <img src="url">
抓取目前位置的上一個層級
3.抓取預告片的 url
抓取目前位置的下一個層級
1.抓取 上映日期 : 2020-11-20 中的日期
2.抓取 電影海報圖片的 <img src="url">
抓取目前位置的上一個層級
3.抓取預告片的 url
抓取目前位置的下一個層級
#目標位置>>Yahoo>>電影>>Yahoo本週新片
#https://tw.movies.yahoo.com/movie_thisweek.html
if __name__ == '__main__':
webpage = check_req_url(yahoo_movie_url)
#print(webpage)
if webpage:
movies = get_week_new_movies(webpage)
#print(movies)
2.抓出所有的電影資訊
讀取表格內儲存格<td></td>圖片內的超連結
<td><a><img></a><td>
找出表格內的資料
1.抓取表格的售價
2.計算所有商品的平均價格
1.找出所有 .png 或 .jpg 結尾的圖片
2.利用 regex 找出所有 .png 或 .jpg 結尾的圖片
3.找出所有 .png 結尾且含 'banner_pc_06.jpg
' 的圖片
1.substr()
2.substring()
常用的正規表達式
找出所有 'h' 開頭的標題文字
文、意如
#當標籤中含特殊字元時, 使用 dict 取得元件
只抓指定的id名稱取得元件
1.只抓指定標籤有套用css類別 ,例如:<h3 class="article__title">
2.把標籤去除掉,只留下文字
1.抓取網站第一個<h3></h3>標籤
2.使用for迴圈抓取所有的<h3></h3>
1.抓取狀態碼
2.顯示失敗訊息
1.爬蟲基礎工
2.抓取<title></title>
3.抓出標籤內的文字
Python - if __name__ == '__main__' 是什麼?
1.字串取字元
2.數字取個位數
網頁Web-Javascript-處理物件{ }、陣列[ ] (JSON資料)
1.建立物件{ }、陣列 [ ]
2.讀取(JSON)物件、陣列
3.實作
4.JSON 資料是字串,讀出並寫入表格
網頁Web-Javascript-使用foreach迴圈抓取陣列並存入[清單]和[表格中]
1.javascript-使用foreach迴圈,讀取陣列變數值,存入清單中
2.javascript-使用foreach迴圈,讀取陣列變數值,存入表格中
1.抓取陣列總筆數
2.使用for迴圈抓取陣列
3.javascript-讀取陣列變數值,存入清單中
4.javascript-讀取陣列變數值,存入表格中