RicostruzioneTrasparente / rt-scrapers

Curated list of sources for scrapers and related issue tracker.
GNU General Public License v3.0
2 stars 3 forks source link

Elenchi codici corretti #23

Closed aborruso closed 6 years ago

aborruso commented 6 years ago

@jenkin ho inserito i codici ISTAT corretti. Tutto questo rompe qualcosa lato elasticSearch?

Se si, lasciamo i vecchi e faccio diversamente

jenkin commented 6 years ago

Attenzione! Quel file csv serve come base per lo scraper, non c'è problema a fare modifiche, purché l'url dell'albo pretorio da scrapare alla fine sia corretto! In particolare l'ultima colonna options costruisce per il provider Halley l'url da scrapare (es. Monte Rinaldo vecchio e nuovo). Come vedi Halley non si è adeguata al cambio di codice e l'albo pretorio è ancora col vecchio, quindi le tue modifiche rompono lo scraper. Idem l'aggiunta o meno dello zero iniziale.

Inoltre quello che davvero conta nel db viene da quest'altro file, che è quello che definisce i feed funzionanti da indicizzare. Come vedi in quel caso l'id non è l'ISTAT, ma il codice IPA.

Ricapitolando: puoi cambiare la prima colonna (id) e quella istat (channel-category-uid), ma non la colonna options, a meno di aver prima verificato che sia cambiato anche l'url corretto dell'albo originale. Se fai queste modifiche, falle anche in sources.json.

aborruso commented 6 years ago

Ok, tutto chiaro, annullo la pull e uso il json, grazie @jenkin