spaghetti-open-data / twitAntonio

TweetYourMep fork for the Italian 2013 Elections
http://www.twitantonio.it
GNU Affero General Public License v3.0
16 stars 10 forks source link

Primo Dataset [Raw] #21

Closed nelsonmau closed 11 years ago

nelsonmau commented 11 years ago

ciao gente, il primo dataset raw è pronto qui https://docs.google.com/spreadsheet/ccc?key=0Aq3nVlLNTO8jdEtTVkpIaHNiUE5OWE9iUjA5RFFnbVE

Rimangono varie cose va valutare, in particolare: 1) manca una colonna con "nome regione" (che è diversa dalla circoscrizione, anche se di tanto in tanto può coincidere") 2) ID regione per mappa.

Inoltre va capito in quest'ottica quanto possiamo semplificare i dati da inserire, in modo da costruire uno standard per il data entry anche per il form

ciò, credo sia un miracolo quello che è avvenuto con il popolamento del dataset :)

nelsonmau commented 11 years ago

va inoltre capito cosa fare con chi non ha l'account twitter o chi ha NA. Propongo molto banalmente di togliere tutti gli 'assenti', e lasciare nel dataset solo chi ha l'account twitter

Ps.: il dataset è stato fatto da Marco Calderisi. Grazie Marco :)

paolomainardi commented 11 years ago

Ottimo, la prima cosa che vedo è che l'importer deve essere capace di gestire i duplicati e come assegnare l'utente a più circoscrizioni. Es: Nichi Vendola è presente in 19 circoscrizioni. @seralf @gaspa

nelsonmau commented 11 years ago

@paolomainardi i campi mi sembrano tutti omogenei, se riesci dammi conferma.

paolomainardi commented 11 years ago

Mi sembra tutto ok, l'unica cosa che strutturato cosi bisogna rifare una parte dell'importer perchè i candidati sono esplosi in più righe una per ogni circoscrizione.

nelsonmau commented 11 years ago

prima di metterci mano sentiamo anche @jenkin tutt'al più si può vedere se girandolo, si importa più facilmente.

l'ID è cmq costituito da [Nomecandidato+_nome_circoscrizioneelettorale] quindi la gestione dei 'doppioni' potrebberisolversi con una colonna aggiuntiva così composta (Tipo: Vendola_Puglia, Vendola_Lazio).

una colonna così se vuoi te la faccio subito e proviamo (tanto che ci frega, non dobbiamo visualizzarla)

magari mi sfugge qls (ma ho fatto lezioni private - gratis - con @jenkin )

perugini commented 11 years ago

Non esistono i miracoli, esistono le buone intenzioni e la
perseveranza degli esseri umani... così per dire: complimenti a tutto
il team ;-)

L

(lottando da giorni con l'influenza ...)

On 24/gen/2013, at 18.23, nelsonmau notifications@github.com wrote:

@paolomainardi i campi mi sembrano tutti omogenei, se riesci dammi
conferma.

— Reply to this email directly or view it on GitHub.

paolomainardi commented 11 years ago

@nelsonmau Alla fine il doppione lo possiamo risolvere a livello di import, tanto alla fine ad un record già esistente andrebbe aggiunta la nuova circoscrizione e basta, il resto delle informazioni rimangono ugual chiaramente.

Credo non sia un grosso problema, va solo cambiata un po la logica dell'importer, che deriva da quello di tymep, chiaramente ha dei limiti logici in quanto ora l'argomento è un po' diverso.

paolomainardi commented 11 years ago

@perugini grazie! :)

nelsonmau commented 11 years ago
ah, beh: la colonna CandidatoCircoscrizione si fa in un nanosecondo.
Anzi, fatta con concatenate. Se adesso va, è inutile modificare
l'import. A meno che tu non voglia fare straordinari, ma non ho
budget vedo eh :)))Il 24/01/2013 18:56, Paolo Mainardi ha
  scritto:

  @nelsonmau Alla fine il doppione lo
    possiamo risolvere a livello di import, tanto alla fine ad un
    record già esistente andrebbe aggiunta la nuova circoscrizione e
    basta, il resto delle informazioni rimangono ugual chiaramente.
  Credo non sia un grosso problema, va solo cambiata un po la
    logica dell'importer, che deriva da quello di tymep, chiaramente
    ha dei limiti logici in quanto ora l'argomento è un po' diverso.

    —
    Reply to this email directly or view
      it on GitHub. 

-- 

Andrea Nelson Mauro - Datajournalist

http://www.dataninja.it http://twitter.com/nelsonmau

paolomainardi commented 11 years ago

@nelsonmau se riusciamo avere una sola riga per candidato e con tutte le circoscrizioni a cui appartiene, magari separate da virgola, sarebbe il massimo :)

nelsonmau commented 11 years ago

eh ma lì devo girare il dataset con le pivot credo, non sono pratico devo sentire @jenkin

paolomainardi commented 11 years ago

Ok, se è facile farlo procediamo cosi, altrimenti ci si arrangia sull'import. Attendiamo le valutazioni di jenkin

jenkin commented 11 years ago

Azz, jenkin vuole un pianeta più lento per avere giornate più lunghe... @nelsonmau, mandami per email 'sto dataset...

Il giorno 24 gennaio 2013 19:15, Paolo Mainardi notifications@github.comha scritto:

Ok, se è facile farlo procediamo cosi, altrimenti ci si arrangia sull'import. Attendiamo le valutazioni di jenkin

— Reply to this email directly or view it on GitHubhttps://github.com/spaghetti-open-data/twitAntonio/issues/21#issuecomment-12664927.

ALESSIO CIMARELLI a.k.a. jenkin

Ufficio comunicazione del LENS http://www.lens.unifi.it (Università di Firenze) Data scientist e giornalista scientifico freelance Dottore in fisica

Blog: dataninja.it http://www.dataninja.it Associazione: accatagliato http://www.accatagliato.org/ Telefono: +39 3343367454 Mail: alessio.cimarelli@gmail.com Skype: alessio.cimarelli About.me http://about.me/alessio.cimarelli

nelsonmau commented 11 years ago

ok te lo mando. Ma scusate, ho detto una cavolata con la storia dell'ID NomeCircoscrizione? Illuminami @paolomainardi

paolomainardi commented 11 years ago

@nelsonmau no, ma con questa struttura:

ID: [Nome_candidato + nome_circoscrizione_elettorale] Rischiamo di avere DB N (nel caso di Vendola 18) elementi che sono diversi (uno per ogni circoscrizione), ma corrispondono tutti alla stessa persona.

L'id dovrebbe essere per non avere duplicazioni: ID: [Nome candidato + Account twitter] in questo modo poi aggiungiamo allo stesso elementi le altre circoscrizioni.

nelsonmau commented 11 years ago

sì capito. E' un problema però relativo solo a questo dataset.

quando metteremo il dataset degli eletti dopo le elezioni, il [nome eletto] sarà unico (pur eletti ovunque, non possono mantenere tutti i seggi). Modificare l'importer rischia di essere un lavoro non riutilizzabile, quindi meglio fare un buon dataset. Ma quelllo che chiedi tu io non so farlo.

twinbit commented 11 years ago

Nelson, allora lo facciamo noi sull'importer, no problem lasciamo cosi.

Paolo Mainardi CTO Twinbit http://www.paolomainardi.com {mobile email}

On 24/gen/2013, at 20:57, nelsonmau notifications@github.com wrote:

sì capito. E' un problema però relativo solo a questo dataset.

quando metteremo il dataset degli eletti dopo le elezioni, il [nome eletto] sarà unico (pur eletti ovunque, non possono mantenere tutti i seggi). Modificare l'importer rischia di essere un lavoro non riutilizzabile, quindi meglio fare un buon dataset. Ma quelllo che chiedi tu io non so farlo.

— Reply to this email directly or view it on GitHub.

gaspa commented 11 years ago

Se il [nome eletto] è unico, se l'importer gestisce il caso di nomi doppi, semplicemente farà una cosa in piu', non necessaria,ma non credo che rompa nulla. Anche io voto per farlo nell'importer.

paolomainardi commented 11 years ago

Ci lavoro io, lasciamo il dataset cosi. @nelsonmau Mi servirebbe come per l'altro l'export in CSV direttamente da Google, riesci a farlo ora ?

nelsonmau commented 11 years ago
arrivoIl 24/01/2013 22:41, Paolo Mainardi ha
  scritto:

  Ci lavoro io, lasciamo il dataset cosi.@nelsonmau Mi servirebbe come per
    l'altro l'export in CSV direttamente da Google, riesci a farlo
    ora ?

    —
    Reply to this email directly or view
      it on GitHub. 

-- 

Andrea Nelson Mauro - Datajournalist

http://www.dataninja.it http://twitter.com/nelsonmau

paolomainardi commented 11 years ago

Link al CSV: https://docs.google.com/spreadsheet/pub?key=0Aq3nVlLNTO8jdEtTVkpIaHNiUE5OWE9iUjA5RFFnbVE&output=csv

albertocottica commented 11 years ago

Grandissimi. Ma 176 accounts Twitter su quasi 2000 candidati? Ho provato a cercarne uno a caso, Stefano Dambruoso della lista Monti, ed eccolo qui in tutto il suo splendore: https://twitter.com/SDambruoso. 0 Tweets, 1 following, 3 followers. Gaspare di Ruocco di SEL invece non usa Twitter (o magari ha un nick tipo cricetoninja24).

Come facciamo a cercarci 1700 candidati uno a uno?

paolomainardi commented 11 years ago

Togliendo i doppioni (stesso utente su più circoscrizioni) ne conto 129.

seralf commented 11 years ago

ma esistono le liste sui siti, almeno? come dicevo ad Andrea lì a SOD: se avete dei siti contenenti le liste, possiamo fare scraping! (pure dai PDF in automatico, con un po' di fantasia ;-)

sennò l'ipotesi crowdsurcing?

Il giorno 25 gennaio 2013 00:26, Alberto Cottica notifications@github.comha scritto:

Grandissimi. Ma 176 accounts Twitter su quasi 2000 candidati? Ho provato a cercarne uno a caso, Stefano Dambruoso della lista Monti, ed eccolo qui in tutto il suo splendore: https://twitter.com/SDambruoso. 0 Tweets, 1 following, 3 followers. Gaspare di Ruocco di SEL invece non usa Twitter (o magari ha un nick tipo cricetoninja24).

Come facciamo a cercarci 1700 candidati uno a uno?

— Reply to this email directly or view it on GitHubhttps://github.com/spaghetti-open-data/twitAntonio/issues/21#issuecomment-12679833.

paolomainardi commented 11 years ago

In testa c'è Vendola:

array (size=16)
  'mep_lastName' => string 'Vendola' (length=7)
  'mep_firstName' => string 'Nicola (nichi)' (length=14)
  'mep_twitterUrl' => string 'NichiVendola' (length=12)
  'mep_country' => 
    array (size=19)
      0 => string 'Abruzzo' (length=7)
      1 => string 'Basilicata' (length=10)
      2 => string 'Calabria' (length=8)
      3 => string 'Campania 2' (length=10)
      4 => string 'Emilia-Romagna' (length=14)
      5 => string 'Friuli-Venezia Giulia' (length=21)
      6 => string 'Lazio 1' (length=7)
      7 => string 'Lazio 2' (length=7)
      8 => string 'Liguria' (length=7)
      9 => string 'Lombardia 2' (length=11)
      10 => string 'Lombardia 3' (length=11)
      11 => string 'Molise' (length=6)
      12 => string 'Piemonte 2' (length=10)
      13 => string 'Puglia' (length=6)
      14 => string 'Toscana' (length=7)
      15 => string 'Trentino-Alto Adige' (length=19)
      16 => string 'Umbria' (length=6)
      17 => string 'Veneto 1' (length=8)
      18 => string 'Veneto 2' (length=8)
  'mep_localParty' => string 'SEL' (length=3)
  'mep_faction' => string 'CS' (length=2)
  'parlamento' => string 'Camera' (length=6)
  'mep_epFotoUrl' => string '' (length=0)
  'mep_emailAddress' => string '' (length=0)
  'mep_epPageUrl' => string '' (length=0)
  'mep_facebookId' => string '' (length=0)
  'mep_facebookPageUrl' => string '' (length=0)
  'mep_personalWebsite' => string '' (length=0)
  'mep_userId' => string '' (length=0)
  'mep_additionalProperties' => string '' (length=0)
  'mep_itemCount' => string '' (length=0)
albertocottica commented 11 years ago

@seralf Laudonio ci disse testualmente "se chiedo gli account twitter alle segreteria me li danno dopo l'insediamento del nuovo governo". Secondo me una lista completa di account Twitter sui siti ce la possiamo scordare. Non resta che tornare su SOD e chiedere aiuto. Dai, con 50 persone dobbiamo controllarne solo 30 a testa... #noncelapossofare :-(

seralf commented 11 years ago

facciamo crowdsourcing! se abbiamo almeno le liste dei nomi ce la possiamo fare!

Il giorno 25 gennaio 2013 00:40, Alberto Cottica notifications@github.comha scritto:

@seralf https://github.com/seralf Laudonio ci disse testualmente "se chiedo gli account twitter alle segreteria me li danno dopo l'insediamento del nuovo governo". Secondo me una lista completa di account Twitter sui siti ce la possiamo scordare. Non resta che tornare su SOD e chiedere aiuto. Dai, con 50 persone dobbiamo controllarne solo 30 a testa...

noncelapossofare :-(

— Reply to this email directly or view it on GitHubhttps://github.com/spaghetti-open-data/twitAntonio/issues/21#issuecomment-12680323.

paolomainardi commented 11 years ago

@seralf @albertocottica d'accordissimo, secondo me va pubblicata una form da qualche parte che permetta di farlo in maniera semplice, evitando di portarci dentro "monnezza".

albertocottica commented 11 years ago

Sì. Bisognerebbe capire se si riescono a bloccare le colonne su GoogleDocs, così si può fare direttamente sullo spreadsheet. Con il nome, il cognome e la lista si riesce.

Se riusciamo a raggiungere una massa critica poi saranno gli stessi candidati a spingere per esserci. Ma ancora non ci siamo...

seralf commented 11 years ago

aspetta si può fare il form sullo spredsheet, se accettiamo la presenza di duplicati. In pratica dovremmo lasciare un inserimento libero e poi mettere su una procedura che: 1) semplifica gli account mettendo insieme tutti i presunti appartenenti ad uno stesso 2) sceglie un account se è quello segnalato più di un tot volte (ad esempio 3). Idem per l'email etc 3) consente la revisione manuale, e qui buttiamo la mondezza.

Quest'ultimo passo se è da fare una tantum si può fare dal db una volta automatizzati un minimo gli altri...

In alternativa sto provando ad abbozzare un form, se poi vogliamo appiccicarci dietro uno script per gli inserimenti, ma credo quest'ultima possibilità conviene solo se la dotiamo di autocomplete, sennò è solo un passo in più.

Il giorno 25 gennaio 2013 00:53, Alberto Cottica notifications@github.comha scritto:

Sì. Bisognerebbe capire se si riescono a bloccare le colonne su GoogleDocs, così si può fare direttamente sullo spreadsheet. Con il nome, il cognome e la lista si riesce.

Se riusciamo a raggiungere una massa critica poi saranno gli stessi candidati a spingere per esserci. Ma ancora non ci siamo...

— Reply to this email directly or view it on GitHubhttps://github.com/spaghetti-open-data/twitAntonio/issues/21#issuecomment-12680740.

paolomainardi commented 11 years ago

Modificato l'importer, come specificato qui: https://github.com/spaghetti-open-data/twitAntonio/issues/21#issuecomment-12668843

@nelsonmau lasciamo sempre cosi i dati da adesso, dunque una riga per candidato per ogni circoscrizione, i "doppioni" li sistemiamo noi nell'importer.

nelsonmau commented 11 years ago

ok @paolo scusate ma stavo rispondendo a karloff che ne ha portati altri.

Dunque propongo anche un coinvolgimento lampo volendo dei ragazzi di era della trasparenza: ho fatto due chiacchiere con Luca e gli darò una mano a visualizzare qualcosa sul loro progetto. Potrei chiederli supporto sulla ricerca di nuovi account.

@Alberto: per massa critica che intendi? hai in mente un numero?

nelsonmau commented 11 years ago

Aggiunti altri candidati, io però posso copiarli con ctrl+v quindi non riesco a verificare i doppioni.

Ora quanti sono?

albertocottica commented 11 years ago

Se state ancora lavorando sul Google Doc in testa a questo thread, io ne vedo 195.

Secondo me massa critica vuol dire 1000. Per potere passare da "Twitantonio offre la possibilità di mandare tweet ad alcuni candidati" a "Twitantonio offre la possibilità di mandare tweet a TUTTI i candidati, anche se ha dei buchi".

In questo senso io i NA non li toglierei, ma li visualizzerei con l'icona del punto interrogativo. "Non abbiamo trovato l'account di Tizio. Forse non usa Twitter. Se conosci l'account di Tizio clicca qui (e mandaci una mail)."

Ovviamente poi bisognerebbe evitare la distesa di punti interrogativi... un bel problema. Forse si potrebbe rendere gli NA invisibili ma ricercabili? Insomma, è pensabile che un utente cerchi il suo candidato preferito su TA, e se non lo trova proprio (perché non usa Twitter, o perché non ci risulta) potrebbe essere indotto a pensare "Bah, questo Twitantonio è un bluff."

nelsonmau commented 11 years ago
sì
il dataset l'ho aggiornato io con nuove entry sy SEL di karloff
possiamo modificarlo io e @paolo
alberto se vuoi ti abilitoIl 25/01/2013 09:37, Alberto Cottica ha
  scritto:

  Se state ancora lavorando sul Google Doc in testa a questo
    thread, io ne vedo 195. 
  Secondo me massa critica vuol dire 1000. Per potere passare da
    "Twitantonio offre la possibilità di mandare tweet ad alcuni
    candidati" a "Twitantonio offre la possibilità di mandare tweet
    a TUTTI i candidati, anche se ha dei buchi". 
  In questo senso io i NA non li toglierei, ma li visualizzerei
    con l'icona del punto interrogativo. "Non abbiamo trovato
    l'account di Tizio. Forse non usa Twitter. Se conosci l'account
    di Tizio clicca qui (e mandaci una mail)." 
  Ovviamente poi bisognerebbe evitare la distesa di punti
    interrogativi... un bel problema. Forse si potrebbe rendere gli
    NA invisibili ma ricercabili? Insomma, è pensabile che un utente
    cerchi il suo candidato preferito su TA, e se non lo trova
    proprio (perché non usa Twitter, o perché non ci risulta)
    potrebbe essere indotto a pensare "Bah, questo Twitantonio è un
    bluff."

    —
    Reply to this email directly or view
      it on GitHub. 

-- 

Andrea Nelson Mauro - Datajournalist

http://www.dataninja.it http://twitter.com/nelsonmau

nelsonmau commented 11 years ago

@albertocottica la cosa che dici in effetti è fondamentale. Dobbiamo approfondire. Anche se bisogna tenere conto di due cose: 1) il dataset è un oggetto in continua evoluzione 2) il numero di politici che hanno twitter è inferiore al numero dei politici totali

aggiungo altre tre cose: 1) devo fare una call con eradellatrasparenza e gli chiedo una mano a far crescere il dataset 2) per il dopo elezioni ho già avuto un rapido scambio di mail con openpolis, con i quali poi faremo il twitantonio degli eletti. 3) non vi anticipo nulla, ma sto riflettendo anche sul glocal. Sperabilmente avremo anche una versione bolognese in tempi abbastanza rapidi: in questo caso copiato il codice sorgente, cambiamo il csv e ci mettiamo i bolognesi. Quindi, giusto per capirci, si può fare anche http://bologna.twitantonio.it

albertocottica commented 11 years ago

No, non mi abilitare @nelsonmau, perché non ce la faccio a mettermi a lavorare su questa cosa. Modesto consiglio: chiediamo aiuto a SOD. @nelsonmau monta un workflow che non metta in pericolo i dati già acquisiti, e poi si va sulla mailing list e si arruolano persone. La faccenda di l'era della trasparenza funziona, perché ti dà una guida per contribuire e ti "pacchettizza" il lavoro (il contributo minimo è molto piccolo, una PA in cinque minuti). Il lavoro è ovviamente pacchettizzabile anche qui: cercare e copincollare l'account Twitter di un candidato richiede forse due minuti. Il workflow potrebbe essere fatto così:

  1. sdoppi il dataset, così ce n'è sempre una copia intatta
  2. nella copia, usi "Name and protect range" per bloccare le colonne diverse da Account Twitter (http://support.google.com/drive/bin/answer.py?hl=en&answer=63175)
  3. metti un mini tutorial sul sito SOD (leggi nome e lista di un candidato, cercalo su Twitter, scrivi nella colonna giusta, come gestire gli ononimi e direi basta).

A questo punto si può lanciare l'upgrade del dataset. Però che peccato, tutto sto lavoro che tra un mese va buttato...

nelsonmau commented 11 years ago
perfetto @albertocottica, mi conforti perché era proprio quello che
pensavo di fare. Ho parlato anche con Luca di Eradella trasparenza.
Da lunedì proveranno anche loro a darci una mano.
Da oggi invece avviamo la cosa che dici tu, ho già fatto varie
chiacchierate a telefono anche per avere dei power contributors.
ora faccio il 3d.
nelsonmau commented 11 years ago

@albertocottica non l'ho mai fatto prima. va bene così? https://docs.google.com/spreadsheet/ccc?key=0Ajp5_Nr0sKLIdFVWVXNfa2lWSnM2YUNUWFBraDlNdHc#gid=0

albertocottica commented 11 years ago

@nelsonmau mi pare che vada tutto bene. Gli avatar li tirate su via script, vero?

nelsonmau commented 11 years ago

sì sì ma è meglio dire "li tirano" :)

albertocottica commented 11 years ago

@nelsonmau a quanto ho capito qui tiri su 600 accounts verificati:

https://twitter.com/macchinafungo/lists

nelsonmau commented 11 years ago

@albertocottica verifico, ma sono solo eletti. Forse facciamo prima a trovare gli account dei candidati che abbiamo, che non capire quali dei vecchi eletti sono candidati. A meno che uno smanettone non voglia matchare i due dataset, se non sbaglio Cmq oggi giornata buona entro stasera pasto i risultati nel dataset dell'app.

nelsonmau commented 11 years ago

@paolomainardi @albertocottica Qui trovate il nuovo dataset in csv da importare https://docs.google.com/spreadsheet/pub?key=0Ajp5_Nr0sKLIdHhva19jaXNEVFkwN2oyb2ZldjlITlE&output=csv

Qui invece lo vedete in html https://docs.google.com/spreadsheet/pub?key=0Ajp5_Nr0sKLIdHhva19jaXNEVFkwN2oyb2ZldjlITlE&output=html

i candidati senza account sono indicati con NA! (poi vedremo come fare, anche sulla base della cosa che diceva alberto: cioè, è meglio avere anche il box del candidato assente dove compare la scritta "Questo candidato non è su twitter", piuttosto che non avere nulla. Sono d'accordo al 100%).

Ieri in crowd ne sono stati processati circa 400. Non è escluso che riusciremo a verificare tutti quelli presenti, ma rimangono comunque numeri parziali...

L'importante a questo punto è anche che implementiate la gestione dei doppioni [nome_country] perché è probabile che io faccia degli errori in questo aggregazione di dati