HackForItaly / politicamentecorretto

Un progetto per raccogliere le promesse dei politici italiani e capire se si trasformano in fatti
http://www.unapromessa.it
MIT License
5 stars 2 forks source link

Lavorazione programmi caricati su archive e documentcloud #95

Open favoeva opened 6 years ago

favoeva commented 6 years ago

Su documentcloud, programmi sono qui https://www.documentcloud.org/search/preview?q=projectid%3A+37136-elezioni-2018+&slug=projectid-37136-elezioni-2018&options=%7B%22q%22%3A%22projectid%3A+37136-elezioni-2018+%22%2C%22container%22%3A%22%23DC-search-projectid-37136-elezioni-2018%22%2C%22title%22%3A%22%22%2C%22order%22%3A%22score%22%2C%22per_page%22%3A%2212%22%2C%22search_bar%22%3Atrue%2C%22organization%22%3A2063%7D

favoeva commented 6 years ago

Su archive invece qui https://archive.org/details/elezioni2018

favoeva commented 6 years ago

C'è da decidere come e se pulire gli OCR

mfortini commented 6 years ago

[Riporto qui]: Farei così: verifichiamo al volo che non ci siano OCR "imbarazzanti", cioè con un 90% di errori. Poi nella pagina che racconta dei programmi in archive e propone la ricerca, mettiamo una frase del tipo: "i programmi sono stati scaricati da qui(link al sito ministero), dove si trovano solo in formato fotografico, e sono stati sottoposti a riconoscimento automatico (OCR), che ha dei margini di errore. Sei un partito e vuoi mandarci il tuo programma in formato testo? Scrivi qui"

È da un lato la dimostrazione dell'efficacia di strumenti "open", che permettono la ricerca e il confronto, ma senza "stiamo facendo il vostro lavoro per voi", dall'altro uno stimolo per i partiti.

cristigalas commented 6 years ago

@mfortini io ho dato un'occhiata ai programmi provando a scaricarli in formato Plain Text e mi pare che non ci siano cose 'imbarazzanti'. Ci sono i soliti simboli strani per gli accenti, gli apostrofi e poco altro... E' questo il tipo di controllo che avevi in mente? Se sì, allora secondo me possiamo procedere come hai scritto, così possiamo anche inserire questa cosa nel comunicato stampa che vorremmo preparare e semmai farci anche un post sul sito...

cristigalas commented 6 years ago

Qui intanto i risultati di qualche ricerchina al volo che mi sono divertita a fare sui 40 programmi in Archive:

aborruso commented 6 years ago

Su documentcloud ci sono 3 Italia Europa e 2 liberi uguali.

Li devo cancellare, ma segnalo la cosa per fare bene di conto

2018-02-02 15:27 GMT+01:00 Cristina Galasso notifications@github.com:

Qui intanto i risultati di qualche ricerchina al volo che mi sono divertita a fare sui programmi per parole-chiave:

  • Legalità 5
  • Mafia 1
  • Azzardo 0
  • Immigrazione/immigrati 12
  • Tasse 19
  • Donne 24
  • Benessere 12
  • Lavoro 33
  • Disoccupazione 15
  • Imprese 24
  • Sicurezza 28
  • Disabilità/Disabili 11
  • Liste d'aatesa 5
  • Trasparenza 6
  • Corruzione 10
  • Partecipazione 17
  • Pubblica Amministrazione 17
  • Povertà 24
  • Pensioni 17
  • Fornero 10
  • Riforma 28
  • Rivoluzione 10
  • Innovazione 10
  • Internet 3
  • Giovani 22
  • Sostenibile 17

— You are receiving this because you are subscribed to this thread. Reply to this email directly, view it on GitHub https://github.com/HackForItaly/politicamentecorretto/issues/95#issuecomment-362600656, or mute the thread https://github.com/notifications/unsubscribe-auth/AAB3j8l-8KtlgmifiQ_eXFHiIrp2V1r5ks5tQxtWgaJpZM4R2xm7 .

--


Andrea Borruso website: https://medium.com/tantotanto 38° 7' 48" N, 13° 21' 9" E, EPSG:4326


"cercare e saper riconoscere chi e cosa, in mezzo all’inferno, non è inferno, e farlo durare, e dargli spazio"

Italo Calvino

aborruso commented 6 years ago

Su documentcloud ci sono 3 Italia Europa e 2 liberi uguali.

Li devo cancellare, ma segnalo la cosa per fare bene di conto

2018-02-02 15:27 GMT+01:00 Cristina Galasso notifications@github.com:

Qui intanto i risultati di qualche ricerchina al volo che mi sono divertita a fare sui programmi per parole-chiave:

  • Legalità 5
  • Mafia 1
  • Azzardo 0
  • Immigrazione/immigrati 12
  • Tasse 19
  • Donne 24
  • Benessere 12
  • Lavoro 33
  • Disoccupazione 15
  • Imprese 24
  • Sicurezza 28
  • Disabilità/Disabili 11
  • Liste d'aatesa 5
  • Trasparenza 6
  • Corruzione 10
  • Partecipazione 17
  • Pubblica Amministrazione 17
  • Povertà 24
  • Pensioni 17
  • Fornero 10
  • Riforma 28
  • Rivoluzione 10
  • Innovazione 10
  • Internet 3
  • Giovani 22
  • Sostenibile 17

— You are receiving this because you are subscribed to this thread. Reply to this email directly, view it on GitHub https://github.com/HackForItaly/politicamentecorretto/issues/95#issuecomment-362600656, or mute the thread https://github.com/notifications/unsubscribe-auth/AAB3j8l-8KtlgmifiQ_eXFHiIrp2V1r5ks5tQxtWgaJpZM4R2xm7 .

--


Andrea Borruso website: https://medium.com/tantotanto 38° 7' 48" N, 13° 21' 9" E, EPSG:4326


"cercare e saper riconoscere chi e cosa, in mezzo all’inferno, non è inferno, e farlo durare, e dargli spazio"

Italo Calvino

cristigalas commented 6 years ago

@aborruso hai ragione :(

alesarrett commented 6 years ago

Ciao a tutti, con l'idea di fare qualche analisi sui testi dei programmi, ho dato un'occhiata ad alcune delle versioni testo contenute in documentcloud. Come evidenziavate già voi ci sono vari errorini qua e là ma, per esempio per il programma di LeU, a volte il testuale è inutilizzabile. In archive l'OCR sembra più stabile. Così mi sono messo a pulire alcuni dei documenti, con la scusa di leggere qualche programma. Allego qui i testi dei 5 fatti fin'ora, nel caso possano essere utilizzati per analisi o sostituiti alle versioni create automaticamente. CasaPound.txt Lega.txt LeU.txt M5S.txt PD.txt

aborruso commented 6 years ago

@alesarret grazie mille.

Se volessimo dare una mano, che procedura hai usato? È ripetibile.

lorenzoperone commented 6 years ago

Ciao, ci sono anche io :) Strutturiamo un elenco di attività da fare e ce le assegnamo?

alesarrett commented 6 years ago

@aborruso, la procedura è sicuramente ripetibile, ma non tanto automatizzabile, perché molto banalmente ho pulito a mano il file txt man mano che leggevo, con un occhio al pdf per controllo :-)