Recuperare i documenti da una pagina web

Mattepuffo's logo
Recuperare i documenti da una pagina web

Recuperare i documenti da una pagina web

In pratica, il comando che vedremo, ci permette di listare tutti i documenti di una determinata pagina web.

Creerà una lista con tutti i documenti linkati.

La lista dei documenti da cercare la passiamo tramite regex; nel nostro caso ho messo:

  • doc
  • docx
  • xls
  • xlsx
  • ppt
  • pptx
  • pdf

Gli strumenti che useremo sono:

  • curl
  • grep
  • sort
  • uniq
  • wget

Quindi funziona su Linux e macOS; per Windows probabilmente bisogna fare una traduzione di alcuni comandi.

Ecco il comando (da mettere tutto su una riga):

$ curl https://www.youngboard.it/ | 
 \ grep -eo "(http|https)://[a-za-z0-9./?=_-]*.*(doc|docx|xls|xlsx|ppt|pptx|pdf)" 
 \| sort | uniq > list.txt | wget list.txt

Enjoy!


Condividi

Commentami!