Recuperare i documenti da una pagina web

Mondo Web, Mondo Web

In pratica, il comando che vedremo, ci permette di listare tutti i documenti di una determinata pagina web.

Creerà una lista con tutti i documenti linkati.

La lista dei documenti da cercare la passiamo tramite regex; nel nostro caso ho messo:

doc
docx
xls
xlsx
ppt
pptx
pdf

Gli strumenti che useremo sono:

curl
grep
sort
uniq
wget

Quindi funziona su Linux e macOS; per Windows probabilmente bisogna fare una traduzione di alcuni comandi.

Ecco il comando (da mettere tutto su una riga):

$ curl https://www.youngboard.it/ | 
 \ grep -eo "(http|https)://[a-za-z0-9./?=_-]*.*(doc|docx|xls|xlsx|ppt|pptx|pdf)" 
 \| sort | uniq > list.txt | wget list.txt

Enjoy!

web curl wget

Commentami!

Nome

Messaggio

Inserisci il numero corretto

Vuoi ricevere email in risposta?

Dichiaro di aver letto ed accettato la Privacy Policy