Recuperare i documenti da una pagina web
In pratica, il comando che vedremo, ci permette di listare tutti i documenti di una determinata pagina web.
Creerà una lista con tutti i documenti linkati.
La lista dei documenti da cercare la passiamo tramite regex; nel nostro caso ho messo:
- doc
- docx
- xls
- xlsx
- ppt
- pptx
Gli strumenti che useremo sono:
- curl
- grep
- sort
- uniq
- wget
Quindi funziona su Linux e macOS; per Windows probabilmente bisogna fare una traduzione di alcuni comandi.
Ecco il comando (da mettere tutto su una riga):
$ curl https://www.youngboard.it/ |
\ grep -eo "(http|https)://[a-za-z0-9./?=_-]*.*(doc|docx|xls|xlsx|ppt|pptx|pdf)"
\| sort | uniq > list.txt | wget list.txt
Enjoy!
web curl wget
Commentami!