Identificare il tipo di file in Java con Apache Tika

Mattepuffo's logo
Identificare il tipo di file in Java con Apache Tika

Identificare il tipo di file in Java con Apache Tika

Ho scoperto un'ottima libreria per Java che ci permette di identificare il tipo di file in maniera molto semplice: Apache Tika!

Ovviamente, questa è solo la base di ciò che può fare; perchè oltre a identificare il tipo di file, può farne anche il parsing.

Quindi leggerne il contenuto, estrarre i metadati, ecc.

Oggi vediamo solo un esempio su come identificare il tipo; più in la vedremo anche come eseguire il parsing di un file.

Se state usando Maven, vi basta aggiungere questa dipendenza:

    <dependencies>
        <dependency>
            <groupId>org.apache.tika</groupId>
            <artifactId>tika-core</artifactId>
            <version>1.13</version>
        </dependency>
    </dependencies>

Con il core potete fare solo le operazioni base; se volete di più dovete includere anche il resto.

Una volta impostato Maven, o aggiunto il JAR al progetto:

File file = new File("VOSTRO_FILE");
System.out.println(new Tika().detect(f));

Il metodo detect farà tutto da solo, identificando il tipo in base al contenuto del documento.

Ovviamente c'è sempre la possibilità che la libreria non riconosca il tipo di file.

Le estensioni conosciuto sono molte, ma ovviamente non possono essere tutte.ù

Enjoy!


Condividi

Commentami!