indecis-it / data

Italian electoral programs data. Open data source for indecis.it
Creative Commons Attribution 4.0 International
6 stars 0 forks source link

Articoli e fact-checking di pagella politica #19

Closed dennisangemi closed 1 year ago

dennisangemi commented 2 years ago

Ciao a tuttə! Come annunciato qui https://github.com/indecis-it/indecis.it/issues/48, ho creato foglio dedicato a pagella politica per raccogliere articoli e fact-checking. Con ogni probabilità il foglio sarà compilato dal responsabile editoriale di Pagella Politica e da una loro risorsa.

Questo un esempio

id url type subject list subject_id list_id
1 https://pagellapolitica.it/fact-checking/flat-tax-lega-milionari fact-checking Flat tax Lega 5 2
2 https://pagellapolitica.it/articoli/promessa-nucleare-italia-elezioni-2022 articolo Nucleare   16  

questo il foglio https://docs.google.com/spreadsheets/d/13YKVLtayxu0m2keOi1KHsLJqoshc9P279RLJ_sdhnAk/edit#gid=905787669

Dite che può funzionare? cc @angelogulina @LorenzoRuff @vi-enne

A queste info potremmo aggiungere anche post_title e post_subtitle importando xml e utilizzando questi XPath (che variano sulla base della differenza tra articoli e fact-checking)

field type XPath
post_title articolo /html/body/div[1]/div/div/div/div/section/div/div[1]/h1
post_title fact-checking /html/body/div/div/div/div/div/div/div/section/div/h2
post_subtitle articolo /html/body/div/div/div/div/div/section/div/div/div[2]/div[1]
post_subtitle fact-checking /html/body/div/div/div/div/div/div/div/div/div/div/div/div[2]
angelogulina commented 2 years ago

Ciao @dennisangemi – grazie per questo lavoro.

Ho notato che ci sono dei post_id duplicati. Mi suggerisce che sono lo stesso articolo ma per, boh?, liste diverse? Se vogliamo tenere il post_id duplicato, posso chiedere di avere comunque una colonna id che abbia valori incrementali univoci?

Altra domanda: possiamo chiamare il foglio (almeno per ciò che riguarda il json generato) fact_check? Si intende che il fact checking sia in collaborazione con PP, ma non è necessario che i dati generati escludano la provenienza da altre fonti (in altre parole, visto che lavoriamo in crowdsourcing, chiunque potrebbe potenzialmente voler contribuire al fact checking, linkando un articolo di altra fonte).

Fammi sapere cosa ne pensi.

dennisangemi commented 2 years ago

Ciao @angelogulina,

  1. Attualmente genero un post_id per ogni link. Se il link è lo stesso, il post_id sarà lo stesso. Immaginando che si potesse associare un post a più liste, ho pensato di duplicare le righe utilizzando formato long e non wide. Se ti serve una colonna id con valori incrementali privi di duplicati, possiamo inserirla senza alcun tipo di problema.

  2. Possiamo rinominare il foglio, certo! Solo una nota: nel foglio non ci sono solo fact-checking ma anche generici articoli. Lo chiamiamo comunque fact_check ?

angelogulina commented 2 years ago

Se ti serve una colonna id con valori incrementali privi di duplicati, possiamo inserirla senza alcun tipo di problema.

Sì, grazie.

Lo chiamiamo comunque fact_check ?

Facciamo posts? 😄 (O articles?)

dennisangemi commented 2 years ago

Sì, grazie.

Oki appena posso la creo ;)

Facciamo posts? 😄 (O articles?)

Per me ok, penserei anche a press

dennisangemi commented 2 years ago

@angelogulina ho preferito evitare di chiamare il foglio posts perchè c'è una colonna post_id e non avrebbe avuto senso aggiungere una colonna id. IMHO si sarebbe generata confusione

dennisangemi commented 1 year ago

Mi pare che per adesso sia tutto ok. La struttura è stata leggermente modificata come da #30

Chiudo ;)