Leggere PDF in Python

Leggere PDF in Python

Ho scoperto per Python la libreria PyPDF2, che ci permette di fare praticamente qualsiasi operazionei sui PDF.

Oggi vediamo come leggerlo edd ottenere diverse informazioni interessanti (oltre al testo ovviamente).

Prima di tutto installiamola:

# pip3 install PyPDF2

Questo un esempio di codice con due funzioni: una le che estrapola diverse informazioni, una che legge le pagina passata come argomento:

from PyPDF2 import PdfFileReader

def getInfos(path):
    with open(path, 'rb') as file:
        pdf = PdfFileReader(file)
        info = pdf.getDocumentInfo()
        numPagine = pdf.getNumPages()
        autore = info.author
        creatore = info.creator
        produttore = info.producer
        soggetto = info.subject
        titolo = info.title

        print(info)
        print(numPagine)
        print(autore)
        print(creatore)
        print(produttore)
        print(soggetto)
        print(titolo)

def estraiTesto(path, pagina):
    with open(path, 'rb') as file:
        pdf = PdfFileReader(file)
        page = pdf.getPage(pagina)
        testo = page.extractText()

        print(page)
        print(testo)


filePdf = '/home/matte-server/Scrivania/test.pdf'
getInfos(filePdf)
estraiTesto(filePdf, 1)
estraiTesto(filePdf, 2)

Ovviamente non è detto che le informazioni ci siano tutte; dipende anche da come è stato creato il PDF.

Enjoy!




Share

Commentami!

About Mattepuffo.com

Blog dedicato all'informatica e alla programmazione!
Tutti i contenuti di questo blog, tranne casi particolari, sono sotto licenza Licenza Creative Commons Creative Commons Attribution-Noncommercial-Share Alike 2.5. .

2576 articoli
310 commenti
19 progetti
Altri link
  • About
  • Scrivimi
  • Copyright
  • Sitemap
  • matteo.ferrone@yahoo.it
  • GitHub
  • Privacy Policy