Python-爬蟲1-基礎實作

1.爬蟲基礎工

2.抓取<title></title>

3.抓出標籤內的文字

1.爬蟲基礎工

目標位置:https://www.yannick.com.tw/shop/productlist?Item1=01&Item2=0102&Item3=010203

#目標位置:https://www.yannick.com.tw/shop/productlist?Item1=01&Item2=0102&Item3=010203
import requests
from bs4 import BeautifulSoup

resp = requests.get('https://www.yannick.com.tw/shop/productlist?Item1=01&Item2=0102&Item3=010203')
print(resp) #<Response [200]> 請求成功回200,請求失敗回404


soup = BeautifulSoup(resp.text, 'html.parser')
#整張HTML
print(soup)


# 輸出排版後的 HTML 程式碼
print(soup.prettify())

整張html已被我們抓回來了。

參考

2.抓取<title></title>

import requests
from bs4 import BeautifulSoup

resp = requests.get('https://www.yannick.com.tw/shop/productlist?Item1=01&Item2=0102&Item3=010203')
#print(resp) #<Response [200]>

soup = BeautifulSoup(resp.text, 'html.parser')
#整張HTML
#print(soup)

# 輸出排版後的 HTML 程式碼
#print(soup.prettify())

# 網頁標題 HTML 標籤
title_tag = soup.title
print(title_tag)#印出<title>食品有限公司</title>
# 網頁的標題文字
print(title_tag.string) #印出諾貝爾食品有限公司

參考

3.抓出標籤內的文字

import requests
from bs4 import BeautifulSoup

resp = requests.get('https://jwlin.github.io/py-scraping-analysis-book/ch1/connect.html')
print(resp.status_code)#查詢狀態碼   200成功   404 失敗(找不到)


soup = BeautifulSoup(resp.text, 'html.parser')

geth1 = soup.find('h1').text #抓取<h1></h1>
getp = soup.find('p').text  #抓取<p></p>
geta = soup.find('a').text  #抓取<a></a>
getfooter = soup.find('footer').text  #抓取<footer></footer>
print(geth1)
print(getp)
print(geta)
print(getfooter)

 

參考程式碼

參考文獻:<姆斯>Python大數據特訓班 <碁峰> 文淵閣工作室 9789864768561

Yiru@Studio - 關於我 - 意如