Closed nelsonmau closed 11 years ago
va inoltre capito cosa fare con chi non ha l'account twitter o chi ha NA. Propongo molto banalmente di togliere tutti gli 'assenti', e lasciare nel dataset solo chi ha l'account twitter
Ps.: il dataset è stato fatto da Marco Calderisi. Grazie Marco :)
Ottimo, la prima cosa che vedo è che l'importer deve essere capace di gestire i duplicati e come assegnare l'utente a più circoscrizioni. Es: Nichi Vendola è presente in 19 circoscrizioni. @seralf @gaspa
@paolomainardi i campi mi sembrano tutti omogenei, se riesci dammi conferma.
Mi sembra tutto ok, l'unica cosa che strutturato cosi bisogna rifare una parte dell'importer perchè i candidati sono esplosi in più righe una per ogni circoscrizione.
prima di metterci mano sentiamo anche @jenkin tutt'al più si può vedere se girandolo, si importa più facilmente.
l'ID è cmq costituito da [Nomecandidato+_nome_circoscrizioneelettorale] quindi la gestione dei 'doppioni' potrebberisolversi con una colonna aggiuntiva così composta (Tipo: Vendola_Puglia, Vendola_Lazio).
una colonna così se vuoi te la faccio subito e proviamo (tanto che ci frega, non dobbiamo visualizzarla)
magari mi sfugge qls (ma ho fatto lezioni private - gratis - con @jenkin )
Non esistono i miracoli, esistono le buone intenzioni e la
perseveranza degli esseri umani... così per dire: complimenti a tutto
il team ;-)
L
(lottando da giorni con l'influenza ...)
On 24/gen/2013, at 18.23, nelsonmau notifications@github.com wrote:
@paolomainardi i campi mi sembrano tutti omogenei, se riesci dammi
conferma.— Reply to this email directly or view it on GitHub.
@nelsonmau Alla fine il doppione lo possiamo risolvere a livello di import, tanto alla fine ad un record già esistente andrebbe aggiunta la nuova circoscrizione e basta, il resto delle informazioni rimangono ugual chiaramente.
Credo non sia un grosso problema, va solo cambiata un po la logica dell'importer, che deriva da quello di tymep, chiaramente ha dei limiti logici in quanto ora l'argomento è un po' diverso.
@perugini grazie! :)
ah, beh: la colonna CandidatoCircoscrizione si fa in un nanosecondo.
Anzi, fatta con concatenate. Se adesso va, è inutile modificare
l'import. A meno che tu non voglia fare straordinari, ma non ho
budget vedo eh :)))Il 24/01/2013 18:56, Paolo Mainardi ha
scritto:
@nelsonmau Alla fine il doppione lo
possiamo risolvere a livello di import, tanto alla fine ad un
record già esistente andrebbe aggiunta la nuova circoscrizione e
basta, il resto delle informazioni rimangono ugual chiaramente.
Credo non sia un grosso problema, va solo cambiata un po la
logica dell'importer, che deriva da quello di tymep, chiaramente
ha dei limiti logici in quanto ora l'argomento è un po' diverso.
—
Reply to this email directly or view
it on GitHub.
--
Andrea Nelson Mauro - Datajournalist
@nelsonmau se riusciamo avere una sola riga per candidato e con tutte le circoscrizioni a cui appartiene, magari separate da virgola, sarebbe il massimo :)
eh ma lì devo girare il dataset con le pivot credo, non sono pratico devo sentire @jenkin
Ok, se è facile farlo procediamo cosi, altrimenti ci si arrangia sull'import. Attendiamo le valutazioni di jenkin
Azz, jenkin vuole un pianeta più lento per avere giornate più lunghe... @nelsonmau, mandami per email 'sto dataset...
Il giorno 24 gennaio 2013 19:15, Paolo Mainardi notifications@github.comha scritto:
Ok, se è facile farlo procediamo cosi, altrimenti ci si arrangia sull'import. Attendiamo le valutazioni di jenkin
— Reply to this email directly or view it on GitHubhttps://github.com/spaghetti-open-data/twitAntonio/issues/21#issuecomment-12664927.
ALESSIO CIMARELLI a.k.a. jenkin
Ufficio comunicazione del LENS http://www.lens.unifi.it (Università di Firenze) Data scientist e giornalista scientifico freelance Dottore in fisica
Blog: dataninja.it http://www.dataninja.it Associazione: accatagliato http://www.accatagliato.org/ Telefono: +39 3343367454 Mail: alessio.cimarelli@gmail.com Skype: alessio.cimarelli About.me http://about.me/alessio.cimarelli
ok te lo mando. Ma scusate, ho detto una cavolata con la storia dell'ID NomeCircoscrizione? Illuminami @paolomainardi
@nelsonmau no, ma con questa struttura:
ID: [Nome_candidato + nome_circoscrizione_elettorale] Rischiamo di avere DB N (nel caso di Vendola 18) elementi che sono diversi (uno per ogni circoscrizione), ma corrispondono tutti alla stessa persona.
L'id dovrebbe essere per non avere duplicazioni: ID: [Nome candidato + Account twitter] in questo modo poi aggiungiamo allo stesso elementi le altre circoscrizioni.
sì capito. E' un problema però relativo solo a questo dataset.
quando metteremo il dataset degli eletti dopo le elezioni, il [nome eletto] sarà unico (pur eletti ovunque, non possono mantenere tutti i seggi). Modificare l'importer rischia di essere un lavoro non riutilizzabile, quindi meglio fare un buon dataset. Ma quelllo che chiedi tu io non so farlo.
Nelson, allora lo facciamo noi sull'importer, no problem lasciamo cosi.
Paolo Mainardi CTO Twinbit http://www.paolomainardi.com {mobile email}
On 24/gen/2013, at 20:57, nelsonmau notifications@github.com wrote:
sì capito. E' un problema però relativo solo a questo dataset.
quando metteremo il dataset degli eletti dopo le elezioni, il [nome eletto] sarà unico (pur eletti ovunque, non possono mantenere tutti i seggi). Modificare l'importer rischia di essere un lavoro non riutilizzabile, quindi meglio fare un buon dataset. Ma quelllo che chiedi tu io non so farlo.
— Reply to this email directly or view it on GitHub.
Se il [nome eletto] è unico, se l'importer gestisce il caso di nomi doppi, semplicemente farà una cosa in piu', non necessaria,ma non credo che rompa nulla. Anche io voto per farlo nell'importer.
Ci lavoro io, lasciamo il dataset cosi. @nelsonmau Mi servirebbe come per l'altro l'export in CSV direttamente da Google, riesci a farlo ora ?
arrivoIl 24/01/2013 22:41, Paolo Mainardi ha
scritto:
Ci lavoro io, lasciamo il dataset cosi.@nelsonmau Mi servirebbe come per
l'altro l'export in CSV direttamente da Google, riesci a farlo
ora ?
—
Reply to this email directly or view
it on GitHub.
--
Andrea Nelson Mauro - Datajournalist
Grandissimi. Ma 176 accounts Twitter su quasi 2000 candidati? Ho provato a cercarne uno a caso, Stefano Dambruoso della lista Monti, ed eccolo qui in tutto il suo splendore: https://twitter.com/SDambruoso. 0 Tweets, 1 following, 3 followers. Gaspare di Ruocco di SEL invece non usa Twitter (o magari ha un nick tipo cricetoninja24).
Come facciamo a cercarci 1700 candidati uno a uno?
Togliendo i doppioni (stesso utente su più circoscrizioni) ne conto 129.
ma esistono le liste sui siti, almeno? come dicevo ad Andrea lì a SOD: se avete dei siti contenenti le liste, possiamo fare scraping! (pure dai PDF in automatico, con un po' di fantasia ;-)
sennò l'ipotesi crowdsurcing?
Il giorno 25 gennaio 2013 00:26, Alberto Cottica notifications@github.comha scritto:
Grandissimi. Ma 176 accounts Twitter su quasi 2000 candidati? Ho provato a cercarne uno a caso, Stefano Dambruoso della lista Monti, ed eccolo qui in tutto il suo splendore: https://twitter.com/SDambruoso. 0 Tweets, 1 following, 3 followers. Gaspare di Ruocco di SEL invece non usa Twitter (o magari ha un nick tipo cricetoninja24).
Come facciamo a cercarci 1700 candidati uno a uno?
— Reply to this email directly or view it on GitHubhttps://github.com/spaghetti-open-data/twitAntonio/issues/21#issuecomment-12679833.
In testa c'è Vendola:
array (size=16)
'mep_lastName' => string 'Vendola' (length=7)
'mep_firstName' => string 'Nicola (nichi)' (length=14)
'mep_twitterUrl' => string 'NichiVendola' (length=12)
'mep_country' =>
array (size=19)
0 => string 'Abruzzo' (length=7)
1 => string 'Basilicata' (length=10)
2 => string 'Calabria' (length=8)
3 => string 'Campania 2' (length=10)
4 => string 'Emilia-Romagna' (length=14)
5 => string 'Friuli-Venezia Giulia' (length=21)
6 => string 'Lazio 1' (length=7)
7 => string 'Lazio 2' (length=7)
8 => string 'Liguria' (length=7)
9 => string 'Lombardia 2' (length=11)
10 => string 'Lombardia 3' (length=11)
11 => string 'Molise' (length=6)
12 => string 'Piemonte 2' (length=10)
13 => string 'Puglia' (length=6)
14 => string 'Toscana' (length=7)
15 => string 'Trentino-Alto Adige' (length=19)
16 => string 'Umbria' (length=6)
17 => string 'Veneto 1' (length=8)
18 => string 'Veneto 2' (length=8)
'mep_localParty' => string 'SEL' (length=3)
'mep_faction' => string 'CS' (length=2)
'parlamento' => string 'Camera' (length=6)
'mep_epFotoUrl' => string '' (length=0)
'mep_emailAddress' => string '' (length=0)
'mep_epPageUrl' => string '' (length=0)
'mep_facebookId' => string '' (length=0)
'mep_facebookPageUrl' => string '' (length=0)
'mep_personalWebsite' => string '' (length=0)
'mep_userId' => string '' (length=0)
'mep_additionalProperties' => string '' (length=0)
'mep_itemCount' => string '' (length=0)
@seralf Laudonio ci disse testualmente "se chiedo gli account twitter alle segreteria me li danno dopo l'insediamento del nuovo governo". Secondo me una lista completa di account Twitter sui siti ce la possiamo scordare. Non resta che tornare su SOD e chiedere aiuto. Dai, con 50 persone dobbiamo controllarne solo 30 a testa... #noncelapossofare :-(
facciamo crowdsourcing! se abbiamo almeno le liste dei nomi ce la possiamo fare!
Il giorno 25 gennaio 2013 00:40, Alberto Cottica notifications@github.comha scritto:
@seralf https://github.com/seralf Laudonio ci disse testualmente "se chiedo gli account twitter alle segreteria me li danno dopo l'insediamento del nuovo governo". Secondo me una lista completa di account Twitter sui siti ce la possiamo scordare. Non resta che tornare su SOD e chiedere aiuto. Dai, con 50 persone dobbiamo controllarne solo 30 a testa...
noncelapossofare :-(
— Reply to this email directly or view it on GitHubhttps://github.com/spaghetti-open-data/twitAntonio/issues/21#issuecomment-12680323.
@seralf @albertocottica d'accordissimo, secondo me va pubblicata una form da qualche parte che permetta di farlo in maniera semplice, evitando di portarci dentro "monnezza".
Sì. Bisognerebbe capire se si riescono a bloccare le colonne su GoogleDocs, così si può fare direttamente sullo spreadsheet. Con il nome, il cognome e la lista si riesce.
Se riusciamo a raggiungere una massa critica poi saranno gli stessi candidati a spingere per esserci. Ma ancora non ci siamo...
aspetta si può fare il form sullo spredsheet, se accettiamo la presenza di duplicati. In pratica dovremmo lasciare un inserimento libero e poi mettere su una procedura che: 1) semplifica gli account mettendo insieme tutti i presunti appartenenti ad uno stesso 2) sceglie un account se è quello segnalato più di un tot volte (ad esempio 3). Idem per l'email etc 3) consente la revisione manuale, e qui buttiamo la mondezza.
Quest'ultimo passo se è da fare una tantum si può fare dal db una volta automatizzati un minimo gli altri...
In alternativa sto provando ad abbozzare un form, se poi vogliamo appiccicarci dietro uno script per gli inserimenti, ma credo quest'ultima possibilità conviene solo se la dotiamo di autocomplete, sennò è solo un passo in più.
Il giorno 25 gennaio 2013 00:53, Alberto Cottica notifications@github.comha scritto:
Sì. Bisognerebbe capire se si riescono a bloccare le colonne su GoogleDocs, così si può fare direttamente sullo spreadsheet. Con il nome, il cognome e la lista si riesce.
Se riusciamo a raggiungere una massa critica poi saranno gli stessi candidati a spingere per esserci. Ma ancora non ci siamo...
— Reply to this email directly or view it on GitHubhttps://github.com/spaghetti-open-data/twitAntonio/issues/21#issuecomment-12680740.
Modificato l'importer, come specificato qui: https://github.com/spaghetti-open-data/twitAntonio/issues/21#issuecomment-12668843
@nelsonmau lasciamo sempre cosi i dati da adesso, dunque una riga per candidato per ogni circoscrizione, i "doppioni" li sistemiamo noi nell'importer.
ok @paolo scusate ma stavo rispondendo a karloff che ne ha portati altri.
Dunque propongo anche un coinvolgimento lampo volendo dei ragazzi di era della trasparenza: ho fatto due chiacchiere con Luca e gli darò una mano a visualizzare qualcosa sul loro progetto. Potrei chiederli supporto sulla ricerca di nuovi account.
@Alberto: per massa critica che intendi? hai in mente un numero?
Aggiunti altri candidati, io però posso copiarli con ctrl+v quindi non riesco a verificare i doppioni.
Ora quanti sono?
Se state ancora lavorando sul Google Doc in testa a questo thread, io ne vedo 195.
Secondo me massa critica vuol dire 1000. Per potere passare da "Twitantonio offre la possibilità di mandare tweet ad alcuni candidati" a "Twitantonio offre la possibilità di mandare tweet a TUTTI i candidati, anche se ha dei buchi".
In questo senso io i NA non li toglierei, ma li visualizzerei con l'icona del punto interrogativo. "Non abbiamo trovato l'account di Tizio. Forse non usa Twitter. Se conosci l'account di Tizio clicca qui (e mandaci una mail)."
Ovviamente poi bisognerebbe evitare la distesa di punti interrogativi... un bel problema. Forse si potrebbe rendere gli NA invisibili ma ricercabili? Insomma, è pensabile che un utente cerchi il suo candidato preferito su TA, e se non lo trova proprio (perché non usa Twitter, o perché non ci risulta) potrebbe essere indotto a pensare "Bah, questo Twitantonio è un bluff."
sì
il dataset l'ho aggiornato io con nuove entry sy SEL di karloff
possiamo modificarlo io e @paolo
alberto se vuoi ti abilitoIl 25/01/2013 09:37, Alberto Cottica ha
scritto:
Se state ancora lavorando sul Google Doc in testa a questo
thread, io ne vedo 195.
Secondo me massa critica vuol dire 1000. Per potere passare da
"Twitantonio offre la possibilità di mandare tweet ad alcuni
candidati" a "Twitantonio offre la possibilità di mandare tweet
a TUTTI i candidati, anche se ha dei buchi".
In questo senso io i NA non li toglierei, ma li visualizzerei
con l'icona del punto interrogativo. "Non abbiamo trovato
l'account di Tizio. Forse non usa Twitter. Se conosci l'account
di Tizio clicca qui (e mandaci una mail)."
Ovviamente poi bisognerebbe evitare la distesa di punti
interrogativi... un bel problema. Forse si potrebbe rendere gli
NA invisibili ma ricercabili? Insomma, è pensabile che un utente
cerchi il suo candidato preferito su TA, e se non lo trova
proprio (perché non usa Twitter, o perché non ci risulta)
potrebbe essere indotto a pensare "Bah, questo Twitantonio è un
bluff."
—
Reply to this email directly or view
it on GitHub.
--
Andrea Nelson Mauro - Datajournalist
@albertocottica la cosa che dici in effetti è fondamentale. Dobbiamo approfondire. Anche se bisogna tenere conto di due cose: 1) il dataset è un oggetto in continua evoluzione 2) il numero di politici che hanno twitter è inferiore al numero dei politici totali
aggiungo altre tre cose: 1) devo fare una call con eradellatrasparenza e gli chiedo una mano a far crescere il dataset 2) per il dopo elezioni ho già avuto un rapido scambio di mail con openpolis, con i quali poi faremo il twitantonio degli eletti. 3) non vi anticipo nulla, ma sto riflettendo anche sul glocal. Sperabilmente avremo anche una versione bolognese in tempi abbastanza rapidi: in questo caso copiato il codice sorgente, cambiamo il csv e ci mettiamo i bolognesi. Quindi, giusto per capirci, si può fare anche http://bologna.twitantonio.it
No, non mi abilitare @nelsonmau, perché non ce la faccio a mettermi a lavorare su questa cosa. Modesto consiglio: chiediamo aiuto a SOD. @nelsonmau monta un workflow che non metta in pericolo i dati già acquisiti, e poi si va sulla mailing list e si arruolano persone. La faccenda di l'era della trasparenza funziona, perché ti dà una guida per contribuire e ti "pacchettizza" il lavoro (il contributo minimo è molto piccolo, una PA in cinque minuti). Il lavoro è ovviamente pacchettizzabile anche qui: cercare e copincollare l'account Twitter di un candidato richiede forse due minuti. Il workflow potrebbe essere fatto così:
A questo punto si può lanciare l'upgrade del dataset. Però che peccato, tutto sto lavoro che tra un mese va buttato...
perfetto @albertocottica, mi conforti perché era proprio quello che
pensavo di fare. Ho parlato anche con Luca di Eradella trasparenza.
Da lunedì proveranno anche loro a darci una mano.
Da oggi invece avviamo la cosa che dici tu, ho già fatto varie
chiacchierate a telefono anche per avere dei power contributors.
ora faccio il 3d.
@albertocottica non l'ho mai fatto prima. va bene così? https://docs.google.com/spreadsheet/ccc?key=0Ajp5_Nr0sKLIdFVWVXNfa2lWSnM2YUNUWFBraDlNdHc#gid=0
@nelsonmau mi pare che vada tutto bene. Gli avatar li tirate su via script, vero?
sì sì ma è meglio dire "li tirano" :)
@nelsonmau a quanto ho capito qui tiri su 600 accounts verificati:
@albertocottica verifico, ma sono solo eletti. Forse facciamo prima a trovare gli account dei candidati che abbiamo, che non capire quali dei vecchi eletti sono candidati. A meno che uno smanettone non voglia matchare i due dataset, se non sbaglio Cmq oggi giornata buona entro stasera pasto i risultati nel dataset dell'app.
@paolomainardi @albertocottica Qui trovate il nuovo dataset in csv da importare https://docs.google.com/spreadsheet/pub?key=0Ajp5_Nr0sKLIdHhva19jaXNEVFkwN2oyb2ZldjlITlE&output=csv
Qui invece lo vedete in html https://docs.google.com/spreadsheet/pub?key=0Ajp5_Nr0sKLIdHhva19jaXNEVFkwN2oyb2ZldjlITlE&output=html
i candidati senza account sono indicati con NA! (poi vedremo come fare, anche sulla base della cosa che diceva alberto: cioè, è meglio avere anche il box del candidato assente dove compare la scritta "Questo candidato non è su twitter", piuttosto che non avere nulla. Sono d'accordo al 100%).
Ieri in crowd ne sono stati processati circa 400. Non è escluso che riusciremo a verificare tutti quelli presenti, ma rimangono comunque numeri parziali...
L'importante a questo punto è anche che implementiate la gestione dei doppioni [nome_country] perché è probabile che io faccia degli errori in questo aggregazione di dati
ciao gente, il primo dataset raw è pronto qui https://docs.google.com/spreadsheet/ccc?key=0Aq3nVlLNTO8jdEtTVkpIaHNiUE5OWE9iUjA5RFFnbVE
Rimangono varie cose va valutare, in particolare: 1) manca una colonna con "nome regione" (che è diversa dalla circoscrizione, anche se di tanto in tanto può coincidere") 2) ID regione per mappa.
Inoltre va capito in quest'ottica quanto possiamo semplificare i dati da inserire, in modo da costruire uno standard per il data entry anche per il form
ciò, credo sia un miracolo quello che è avvenuto con il popolamento del dataset :)