Loading ...

Leggere PDF in Python

Leggere PDF in Python

Ho scoperto per Python la libreria PyPDF2, che ci permette di fare praticamente qualsiasi operazionei sui PDF.

Oggi vediamo come leggerlo edd ottenere diverse informazioni interessanti (oltre al testo ovviamente).

Prima di tutto installiamola:

# pip3 install PyPDF2

Questo un esempio di codice con due funzioni: una le che estrapola diverse informazioni, una che legge le pagina passata come argomento:

from PyPDF2 import PdfFileReader

def getInfos(path):
    with open(path, 'rb') as file:
        pdf = PdfFileReader(file)
        info = pdf.getDocumentInfo()
        numPagine = pdf.getNumPages()
        autore = info.author
        creatore = info.creator
        produttore = info.producer
        soggetto = info.subject
        titolo = info.title

        print(info)
        print(numPagine)
        print(autore)
        print(creatore)
        print(produttore)
        print(soggetto)
        print(titolo)

def estraiTesto(path, pagina):
    with open(path, 'rb') as file:
        pdf = PdfFileReader(file)
        page = pdf.getPage(pagina)
        testo = page.extractText()

        print(page)
        print(testo)


filePdf = '/home/matte-server/Scrivania/test.pdf'
getInfos(filePdf)
estraiTesto(filePdf, 1)
estraiTesto(filePdf, 2)

Ovviamente non è detto che le informazioni ci siano tutte; dipende anche da come è stato creato il PDF.

Enjoy!