Estrarre testo dai documenti con Textricator

Mattepuffo's logo
Estrarre testo dai documenti con Textricator

Estrarre testo dai documenti con Textricator

Textricator è un programma open e multi piattaforma che ci consente di estrarre il testo dai documenti, e creare diversi tipi di strutture dati.

E' basato su Java, e quindi necessita di una JVM installata.

Dopo esservi assicurati di aver installato una JVM, scaricate il pacchetto compresso da qui.

Io ho scelto quella che al momento è l'ultima versione; questo il link diretto: textricator-9.2.57-bin.tgz.

Una volta scaricato scompattatell; da terminale spostatevi nella cartella e date questo comando:

$ ./textricator text --input-format=pdf.pdfbox school-employee-list.pdf

Il PDF l'ho preso sempre dal sito; in questo caso abbiamo usato l'output in formato raw.

Ma possiamo scegliere anche altri formati come il JSON:

$ ./textricator text --input-format=pdf.pdfbox school-employee-list.pdf --output-format=json

Ci sono poi delle configurazioni più avanzate che potete fare; trovate degli esempi nella documentazione.

Enjoy!


Share this Post

Commentami!