Python WEBスクレイピング

WEBスクレイピングとは

WEBサイトの情報を抽出・取得すること

スクレイピングに使用するライブラリ

  • Requests
  • BeautifulSoup

ライブラリのインストール

RequestsとBeautifulSoupのインストール

BeautifulSoupは4をつける

pip install requests beautifulsoup4

Requestsでサイトの情報を取得

import requests

r = requests.get('https://サイトのURL')

print(r.text)

Requestsをインポート

サイトにアクセスして得た情報を変数rに代入

取得した内容をテキストで表示

BeautifulSoupでサイトのHTMLを解析

import requests
from bs4 import BeautifulSoup

r = requests.get('https://サイトのURL')
soup = BeautifulSoup(r.text, 'html.parser')

print(soup.find('h2').text)

Requestsをインポート

BeautifulSoupをインポート

サイトにアクセスして得た情報を変数rに代入

rで取得したデータのHTML情報を解析してsoupに代入

HTMLの中からh2タグの情報を抽出してテキストで表示