Recuperare i documenti da una pagina web

Recuperare i documenti da una pagina web

In pratica, il comando che vedremo, ci permette di listare tutti i documenti di una determinata pagina web.

Creerà una lista con tutti i documenti linkati.

La lista dei documenti da cercare la passiamo tramite regex; nel nostro caso ho messo:

  • doc
  • docx
  • xls
  • xlsx
  • ppt
  • pptx
  • pdf

Gli strumenti che useremo sono:

  • curl
  • grep
  • sort
  • uniq
  • wget

Quindi funziona su Linux e macOS; per Windows probabilmente bisogna fare una traduzione di alcuni comandi.

Ecco il comando (da mettere tutto su una riga):

$ curl https://www.youngboard.it/ | 
 \ grep -eo "(http|https)://[a-za-z0-9./?=_-]*.*(doc|docx|xls|xlsx|ppt|pptx|pdf)" 
 \| sort | uniq > list.txt | wget list.txt

Enjoy!




Share

Commentami!

About Mattepuffo.com

Blog dedicato all'informatica e alla programmazione!
Tutti i contenuti di questo blog, tranne casi particolari, sono sotto licenza Licenza Creative Commons Creative Commons Attribution-Noncommercial-Share Alike 2.5. .

2644 articoli
310 commenti
19 progetti
Altri link
  • About
  • Scrivimi
  • Copyright
  • Sitemap
  • matteo.ferrone@yahoo.it
  • GitHub
  • Privacy Policy