ondata / disabled-data

Other
1 stars 1 forks source link

traduzione dati EUROSTAT #14

Closed simonabisiani closed 2 years ago

simonabisiani commented 2 years ago

Ciao @aborruso,

come magari sai, i dati EUROSTAT usano codici per nomi di paesi, nomi di variabili, ecc. Parlando con i nostri dev delle opzioni che abbiamo per eventualmente arrivare ad avere i codici tradotti nel lato front end, @danielrampanelli suggerisce di operare le traduzioni qua nel repo, siccome noi cerchiamo di fare una copia 1:1 di questo repo ed evitare di elaborare i dati ulteriormente nella copia fatta da noi. Riguardo alla reperibilità delle traduzioni, andando nelle varie tabelle online le ho trovate. Ho anche scaricato i vari .dic files, sembra sia una delle possibili vie da seguire.

Siccome i cambiamenti sarebbero da fare all'interno di questa repo, volevo chiederti se:

Grazie mille in anticipo per l'aiuto e la consultazione!

aborruso commented 2 years ago

ciao @simonabisiani e @danielrampanelli vorrei capire un po' meglio.

Uno dei dataset è hlth_de010 (version long e versione wide).

Quando parlate di traduzione, fate riferimento alla definizione dei vocabolari categorici (come PB1040 nella colonna hlth_pb), e avere restituito ad esempio etichetta e descrizione in italiano, di PB1040 ?

E se così, poi replicare per colonne come wstatus?

Quindi diciamo tutto il dizionario dei codici, in italiano?

Grazie

aborruso commented 2 years ago

@simonabisiani e @danielrampanelli, a partire dai nomi dei dizionari usati in questi dataset eurostat, ho estratto i dizionari relativi.

Nel dataset hlth_de010, la prima riga contiene le colonne unit, hlth_pb, wstatus, sex, time, geo. Ogni colonna è un dizionario di valori, il cui significato è nei file relativi:

Fatemi sapere

simonabisiani commented 2 years ago

Ciao @aborruso, grazie mille per la velocità e la competenza!

A livello di dizionari mi sembra ci sia tutto. Attendo conferma da Daniel che possiamo utilizzarli così come sono, appena ho risposta ti faccio sapere.

Buon weekend nel frattempo!

danielrampanelli commented 2 years ago

Ciao @aborruso grazie mille. Sarebbe possibile convertire i file ".dict" automaticamente in un equivalente JSON? Così poi sono più facili da utilizzare sul frontend e sopratutto ci permette di aggiungere delle tradizioni in italiano.

Qui un esempio:

{ "TOTAL": { "en": "Total", "it": null }, (...) }

aborruso commented 2 years ago

ciao @danielrampanelli ho fatto una cosa rapida in JSON Lines, per ogni dic.

Qui un esempio https://github.com/ondata/disabled-data/blob/main/data/eurostat/dict/lev_limit.jsonl

Va bene anche così?

danielrampanelli commented 2 years ago

Sì, va bene a noi non cambia tantissimo se JSON classico o JSONL. Grazie