teamdigitale / confini-amministrativi-istat

Una collezione di applicazioni e risorse per facilitare il riuso dei dati sui confini amministrativi italiani.
Other
16 stars 6 forks source link

Verificare l'integrazione delle informazioni di OntoPiA #9

Closed jenkin closed 4 years ago

jenkin commented 4 years ago

Da un commento su Forum Italia.

OntoPiA ha definito i vocabolari controllati per le unità amministrative italiane.

Di rilevanza particolare il lavoro fatto sull'archivio storico dei comuni.

Da valutare l'integrazione dei dati di OntoPiA.

jenkin commented 4 years ago

Quello che si può fare abbastanza agevolmente è usare OntoPiA per arricchire il csv di ANPR con gli URI W3ID e Wikipedia delle città...

seralf commented 4 years ago

ciao il dataset territorial-classification è stato concepito per mappare elementi mettendo in JOIN i dati di ISTAT e ANPR che erano stati acquisiti in DAF: al momento se non erro la nuova versione della piattaforma è offline ma ri-acquisendo i dati corrispettivi dovrebbe essere facile adattare la logica ed i mapping: https://github.com/italia/daf-ontologie-vocabolari-controllati/blob/master/VocabolariControllati/territorial-classifications/cities/scriptR2RML/cities.r2rml.ttl

tra l'altro @giorgialodi aveva aggiunto già anche una traccia di come linkare ad esempio su dbpedia: https://github.com/italia/daf-ontologie-vocabolari-controllati/blob/master/VocabolariControllati/territorial-classifications/cities/scriptR2RML/cities_linking.r2rml.ttl

se ho capito bene il punto è cercare di ottenere i vettori corrispondenti agli stessi codici usati nei mapping sopra, così da poter utilizzare il permanent URI definito per ontoPiA (w3id etc) come riferimento globale sia ai nomi "standardizzati" (nel tempo, peraltro) che ai confini relativi.

seralf commented 4 years ago

guardando il CSV nella cartella di progetto: se mi girate una spiegazione dei vari campi, vi posso mettere su (ci posso lavorare nel WE, per esempio) una semplice pipeline eseguibile da riga di comando, che ne produce una versione RDF allineabile su OntoPiA

giorgialodi commented 4 years ago

Esatto @seralf e il dataset è online e navigabile. Questo per esempio è l'esempio su FIRENZE https://w3id.org/italia/controlled-vocabulary/territorial-classifications/cities/048017-(1939-11-15)

Aggiungo che il dataset ha dei collegamenti già verso Dbpedia e verso il dataset Linked Open Data di ISPRA che fonisce i poligoni dei comuni. E' un lavoro che fu fatto insieme a @mariaclaudia e @axcarlin

Come ricordava Alfredo su repository di OntoPiA ci sono gli script R2ML per poter effettuare le conversioni da db relazionale a RDF in conformità con la relativa ontologia Core Location Vocabulary (CLV-AP_IT) per riprodurre quanto fatto ed eventualmente estenderlo con altri dati.

jenkin commented 4 years ago

@seralf Ai fini di questo progetto credo che basti aggiungere ai csv prodotti l'uri w3id in una nuova colonna... :)

Si può fare scaricando il ttl e facendo un join, oppure re-implementando l'algoritmo di costruzione dell'uri (che mi pare sia https://w3id.org/italia/controlled-vocabulary/territorial-classifications/cities/ + codice istat alfanumerico + - + data di istituzione, ma chiedo a voi una convalida).

seralf commented 4 years ago

se basta materializzare una colonna, basta riprodurre la struttura del template URI:

rr:template "https://w3id.org/italia/controlled-vocabulary/territorial-classifications/cities/{'ANPR_codistat'}-({'ANPR_data_istituzione'})"

ovviamente sostituendo ai campi ANPR_codistat e ANPR_data_istituzione i campi corrispettivi.

jenkin commented 4 years ago

Ecco, perfetto, questo direi che chiude la issue... :)

jenkin commented 4 years ago

Purtroppo non è possibile aggiungere gli URIs anche nei csv dei comuni dei singoli rilasci di istat, perché in quel caso non c'è la data di instituzione...

seralf commented 4 years ago

si questo è un tema aperto, ho formulato due possibili ipotesi in una apposita issue su OntoPiA

L'idea generale che mi sono fatto -guardando i dati provenienti da diversi ambiti- è che l'esigenza di un dataset centrale sia quella senz'altro di manutenere una versione nel tempo con un pattern del tipo già adottato, ma che potrebbero essere introdotti degli "alias", dei record "proxy" di comodo a cui linkare i propri, in assenza di soluzioni migliori. Questo per descrivere in modo esplicito due cose: che il puntamento avviene all'ultima versione disponibile, o con un certo grado di incertezza. In ambo i casi il valore di incertezza sarebbe inoltre calcolabile con un qualche criterio oggettivo (diverso insomma dall'affidabilità dei vari tool di linkage, tra silk, duke, openrefine, etc) (i miei 2 cents)

giorgialodi commented 4 years ago

Scusate, ho letto i messaggi ma il senso mi sfugge. Perché dovremmo fare accrocchi vari su un dataset che era nato per uno specifico scopo e per promuovere anche una certa politica di gestione di quel tipo di dato? Siamo riusciti a fare quella cosa perché di fatto mettiamo insieme fonti dati diverse, producendo un unico dataset collegabile ad altri che hanno informazioni proprio geo che all'origine non ci sono. E' la forza di avere un approccio linked rispetto a un altro tipo di approccio. L'obiettivo infatti era poi consentire agli utenti di ricavare tutte quelle informazioni interrogando fonti di dati diverse federate grazie ai link semantici creati.

Tra l'altro la data di istituzione l'ANPR la ricava da ISTAT che io sappia (e questo è stato a lungo discusso nel repo di ANPR) quindi che non ci sia e non si possa ricavare da lì mi pare strano, ma potrei non aver capito materialmente cosa state facendo e dove volete arrivare (obiettivo finale) :)

Ma poi se capite che è lo stesso comune del dataset turtle, cosa impedisce di aggiungere l'URI di riferimento nel Web?? (non ho seguito tutto il progetto anche in termini tecnici e quindi potrei essermi persa qualcosa!)

seralf commented 4 years ago

Scusatemi non volevo andare off-topic, colpa mia temo :-) suggerivo soltanto che se serve riconciliare le cose tanto valeva riusare quanto fatto: se ci si può linkare direttamente tanto meglio! Citavo ANPR perché mi ricordavo la data provenisse di lì, se è la stessa è facilmente riproducibile per i motivi detti su!