opendatasicilia / tansignari

"T'ansignari e t'appeddiri"
http://tansignari.opendatasicilia.it
Creative Commons Attribution 4.0 International
18 stars 10 forks source link

Come estrapolare un tabella da un file pdf #265

Open stelab82 opened 1 month ago

stelab82 commented 1 month ago

Ciao

avrei bisogno di estrapolare una tabella da un file pdf. La tabella è splittata su vari fogli, avete indicazioni su come fare?

grazie in antiipo!

cirospat commented 1 month ago

un modo molto semplice è: https://www.ilovepdf.com/it/pdf_in_excel

Il giorno ven 4 ott 2024 alle ore 15:26 stelab82 @.***> ha scritto:

Ciao

avrei bisogno di estrapolare una tabella da un file pdf. La tabella è splittata su vari fogli, avete indicazioni su come fare?

grazie in antiipo!

— Reply to this email directly, view it on GitHub https://github.com/opendatasicilia/tansignari/issues/265, or unsubscribe https://github.com/notifications/unsubscribe-auth/AA4VLVOT2GQXEKZKVL25RE3ZZ2JPZAVCNFSM6AAAAABPL4NLDOVHI2DSMVQWIX3LMV43ASLTON2WKOZSGU3DMMZXG43TGMQ . You are receiving this because you are subscribed to this thread.Message ID: @.***>

stelab82 commented 1 month ago

Ciao Ciro

grazie mille, fantastico tool!

io nel frattempo su suggerimento di Dennis avevo provato questo https://www.ondata.it/strumenti/tabula/

ma devo dire che ho dovuto fare un po' di pulizia manuale per le righe di intestazione su cui faceva un po' di casino nell'estrazione, mentre con ilovepdf non ho dovuto mettere mano a nulla, ha fatto tutto in automatico.

Really powerfull, thanks!

cirospat commented 1 month ago

io uso ilovepdf quasi quotidianamente, fa un gran bel lavoro in tempo zero aggratis!

A volte gli smanettoni fanno perdere tempo .... 😂😉

Il giorno ven 4 ott 2024 alle ore 16:24 stelab82 @.***> ha scritto:

Ciao Ciro

grazie mille, fantastico tool!

io nel frattempo su suggerimento di Dennis avevo provato questo https://www.ondata.it/strumenti/tabula/

ma devo dire che ho dovuto fare un po' di pulizia manuale per le righe di intestazione su cui faceva un po' di casino nell'estrazione, mentre con ilovepdf non ho dovuto mettere mano a nulla, ha fatto tutto in automatico.

Really powerfull, thanks!

— Reply to this email directly, view it on GitHub https://github.com/opendatasicilia/tansignari/issues/265#issuecomment-2393837197, or unsubscribe https://github.com/notifications/unsubscribe-auth/AA4VLVNTSO5B6N64O27PQJDZZ2QJJAVCNFSM6AAAAABPL4NLDOVHI2DSMVQWIX3LMV43OSLTON2WKQ3PNVWWK3TUHMZDGOJTHAZTOMJZG4 . You are receiving this because you commented.Message ID: @.***>

aborruso commented 1 month ago

@stelab82 visto che lo metti su ilovepdf, sarà un PDF pubblico. Lo alleghi o metti URL?

Appena mi riprendo dalla febbre mi faccio un giro

stelab82 commented 1 month ago

@aborruso eccoti https://www.mimit.gov.it/images/stories/normativa/allegati/errata_corrige_-_elenco_candidati_ammissibili_CC_2024.pdf

però perchè dici che dato che lo metto su ilovepdf deve essere pubblico? Loro dichiarano che anche nella versione free, cancellano il dato dopo 2 ore dall'elaborazione. Inoltre non sembra visibile/scaricabile a nessuno (a parte il gestore della piattaforma ovviamente). Su Tabula ho visto che nell'implementazione di Ondata c'è la possibilità di eliminare manualmente il file, tuttavia nel tempo di elaborazione e fino a quando non effetto la cancellazione manuale diventa pubblico, o mi sbaglio? C'è possibilità su Tabula di lavorare in una sessione non pubblica?

aborruso commented 1 month ago

Caro @stelab82 , tabula è un prodotto che puoi scaricare e installare sul tuo PC: https://tabula.technology/

Noi l'abbiamo messo online, come petit cadeau, per renderlo disponibile a chi non vuole installare nulla. Quando penso a tabula, penso a tabula sul proprio PC.

Non penso male di ilovepdf, ma seguivo il "babbio" lanciato, e ho introdotto un altro tema di valutazione.

Molto spesso non uso nemmeno io Tabula, ma il fatto che ti consenta di essere inserito in pipeline di codice (prendi quel PDF da lì, quell'altro da là, su questo fai così, su quello colì, con i CSV di output poi aggiungi il nome file e la data ...), lo rende veramente prezioso per certi task.

Nelle mie lezioni su Tabula uno dei primi punti è tenere separati l'intestazione dai dati. Perché nell'header ci sono le follie, mentre spesso il resto è più "normale".

@stelab82 ma tu lo sai che devi fare adesso?

stelab82 commented 1 month ago

Scaricare Tabula e seguire il link in cui ci sono le tue lezioni di Tabula? :)

aborruso commented 1 month ago

Scaricare Tabula e seguire il link in cui ci sono le tue lezioni di Tabula? :)

No, ti devi leggere il galateo di "t'ansignari": https://tansignari.opendatasicilia.it/galateo/

dennisangemi commented 1 month ago

Caro @stelab82 ti abbiamo incastrato! 😂

Ti agevolo ricetta utile https://tansignari.opendatasicilia.it/ricette/tansignari/come_scrivere_una_ricetta/

stelab82 commented 1 month ago

Ed io che ci sono cascato come un niubbo! Siete un'associazione a collaborare, la banda Bassotti vi fa un baffo! :)

Volentieri appena ho un attimo cucino la ricetta, sarebbe la mia prima!

stelab82 commented 1 month ago

@aborruso ti segnalo solo che i risultati prodotti da Tabula e Ilovepdf sono diversi, sembra che Tabula si perda qualche riga da qualche parte.

ti condivido qui gli outptut delle due piattaforme, se vuoi approfondire: Ilovepdf Ilovepdf_erratacorrige-_elenco_candidati_ammissibili_CC_2024.xlsx 1059 record intestazioni escluse

tabula Tabula_Cooperative -tabula-erratacorrige-_elenco_candidati_ammissibili_CC_2024.csv 1026 record intestazioni escluse

aborruso commented 1 month ago

Caro @stelab82 , nella mia esperienza troppo spesso ho scelto il tool, dopo qualche tentativo. Qui tabula, si può ottimizzare, ma non mi piace troppo l'esito.

Io per ora sto usando spesso (via codice) https://pymupdf.readthedocs.io/en/latest/

Uno strumento che per alcuni PDF, fa un buon lavoro è excel. Qui un video tutorial dedicato https://youtu.be/L-GkYDd_nv0

nelsonmau commented 1 month ago

image

aborruso commented 1 month ago

Ha ragione @nelsonmau, @stelab82 mi ignora, e ho parlato con me stesso :(

nelsonmau commented 1 month ago

@aborruso in realtà volevo dire che tu sei saggio come l'imperatore Marco Aurelio e i tuoi testi dureranno a imperitura memoria (e dico "dureranno" pensando al tuo Italo, scusa se è poco)

stelab82 commented 1 month ago

grazie mille @aborruso, in particolare il tutorial utilissimo e al di là di ogni aspettativa quando ho chiesto aiuto a questa community, non sapevo di queste funzionalità di excel ...e sicuramente entrerà a far parte della ricetta!

E per tu saperlo @aborruso: tu non parli mai con te stesso, anche se non sempre ti sembra di averne contezza, le tue parole riecheggiano in questo etere potenti e durature come quelle in un antico profeta, su questo ha ragionissima @nelsonmau che la sa lunga, anzi lunghissima, sallo!