Home / Programmazione / Python / WebScraping con Python e BeautifulSoup
Mattepuffo

WebScraping con Python e BeautifulSoup

WebScraping con Python e BeautifulSoup

Oggi vediamo un esempio basico di WebScraping usando Python e BeautifulSoup!

Questa libreria è un diventata un must per questo genere di operazioni con Python.

E la versione 4 ha portato con se molte novità.

Prima di tutto, per usarla, dobbiamo installarla sul nostro sistema.

Possiamo fare questa operazione con PIP:

$ sudo pip install beautifulsoup4

A questo punto creiamo un file Python e mettiamoci dentro questo:

#!/usr/bin/python3

from bs4 import BeautifulSoup
import requests

r = requests.get('http://en.wikipedia.org/wiki/Main_Page')
data = r.text
soup = BeautifulSoup(data)
for anchor in soup.find_all('a'):
    print(anchor.get('href'))

Dopo aver importato due moduli, eseguaimo una richiesta verso una pagina web.

Sotto prendiamo i dati e li passiamo a BeautifulSoup.

Poi facciamo una ricerca con find_all per trovare tutti i link e li stampiamo.

Ovviamente è un esempio base; ci sono tantissime funzioni più avanzate e specifiche.

Enjoy!