WEBスクレイピングとは
WEBサイトの情報を抽出・取得すること
スクレイピングに使用するライブラリ
- Requests
- BeautifulSoup
ライブラリのインストール
RequestsとBeautifulSoupのインストール
BeautifulSoupは4をつける
pip install requests beautifulsoup4
Requestsでサイトの情報を取得
import requests
r = requests.get('https://サイトのURL')
print(r.text)
Requestsをインポート
サイトにアクセスして得た情報を変数rに代入
取得した内容をテキストで表示
BeautifulSoupでサイトのHTMLを解析
import requests
from bs4 import BeautifulSoup
r = requests.get('https://サイトのURL')
soup = BeautifulSoup(r.text, 'html.parser')
print(soup.find('h2').text)
Requestsをインポート
BeautifulSoupをインポート
サイトにアクセスして得た情報を変数rに代入
rで取得したデータのHTML情報を解析してsoupに代入
HTMLの中からh2タグの情報を抽出してテキストで表示