crawler

Mattepuffo's logo
WebScraping con PHP e Goutte

WebScraping con PHP e Goutte

Goutte è una libreria per il webscraping e il crwaling per PHP.

Si basa su diverse altre librerie, di cui sicuramente la più importante è DomCrawler.

Oggi ne vediamo un paio di esempi basici, senza andare troppo nel profondo; la mia era più una curiosità che un vero e proprio bisogno.

Mattepuffo's logo
Creare un crawler in Java e crwaler4j

Creare un crawler in Java e crwaler4j

Cominciamo con la descrizione di Wikipedia su cosa sia un crawler:

Un crawler (detto anche web crawler, spider o robot), è un software che analizza i contenuti di una rete (o di un database) in un modo metodico e automatizzato, in genere per conto di un motore di ricerca. Nello specifico, un crawler è un tipo di bot (programma o script che automatizza delle operazioni), che solitamente acquisisce una copia testuale di tutti i documenti presenti in una o più pagine web creando un indice che ne permetta, successivamente, la ricerca e la visualizzazione.