Closed jenkin closed 4 years ago
Quello che si può fare abbastanza agevolmente è usare OntoPiA per arricchire il csv di ANPR con gli URI W3ID e Wikipedia delle città...
ciao
il dataset territorial-classification
è stato concepito per mappare elementi mettendo in JOIN i dati di ISTAT e ANPR che erano stati acquisiti in DAF: al momento se non erro la nuova versione della piattaforma è offline ma ri-acquisendo i dati corrispettivi dovrebbe essere facile adattare la logica ed i mapping:
https://github.com/italia/daf-ontologie-vocabolari-controllati/blob/master/VocabolariControllati/territorial-classifications/cities/scriptR2RML/cities.r2rml.ttl
tra l'altro @giorgialodi aveva aggiunto già anche una traccia di come linkare ad esempio su dbpedia: https://github.com/italia/daf-ontologie-vocabolari-controllati/blob/master/VocabolariControllati/territorial-classifications/cities/scriptR2RML/cities_linking.r2rml.ttl
se ho capito bene il punto è cercare di ottenere i vettori corrispondenti agli stessi codici usati nei mapping sopra, così da poter utilizzare il permanent URI definito per ontoPiA (w3id etc) come riferimento globale sia ai nomi "standardizzati" (nel tempo, peraltro) che ai confini relativi.
guardando il CSV nella cartella di progetto: se mi girate una spiegazione dei vari campi, vi posso mettere su (ci posso lavorare nel WE, per esempio) una semplice pipeline eseguibile da riga di comando, che ne produce una versione RDF allineabile su OntoPiA
Esatto @seralf e il dataset è online e navigabile. Questo per esempio è l'esempio su FIRENZE https://w3id.org/italia/controlled-vocabulary/territorial-classifications/cities/048017-(1939-11-15)
Aggiungo che il dataset ha dei collegamenti già verso Dbpedia e verso il dataset Linked Open Data di ISPRA che fonisce i poligoni dei comuni. E' un lavoro che fu fatto insieme a @mariaclaudia e @axcarlin
Come ricordava Alfredo su repository di OntoPiA ci sono gli script R2ML per poter effettuare le conversioni da db relazionale a RDF in conformità con la relativa ontologia Core Location Vocabulary (CLV-AP_IT) per riprodurre quanto fatto ed eventualmente estenderlo con altri dati.
@seralf Ai fini di questo progetto credo che basti aggiungere ai csv prodotti l'uri w3id in una nuova colonna... :)
Si può fare scaricando il ttl e facendo un join, oppure re-implementando l'algoritmo di costruzione dell'uri (che mi pare sia https://w3id.org/italia/controlled-vocabulary/territorial-classifications/cities/
+ codice istat alfanumerico
+ -
+ data di istituzione
, ma chiedo a voi una convalida).
se basta materializzare una colonna, basta riprodurre la struttura del template URI:
rr:template "https://w3id.org/italia/controlled-vocabulary/territorial-classifications/cities/{'ANPR_codistat'}-({'ANPR_data_istituzione'})"
ovviamente sostituendo ai campi ANPR_codistat
e ANPR_data_istituzione
i campi corrispettivi.
Ecco, perfetto, questo direi che chiude la issue... :)
Purtroppo non è possibile aggiungere gli URIs anche nei csv dei comuni dei singoli rilasci di istat, perché in quel caso non c'è la data di instituzione...
si questo è un tema aperto, ho formulato due possibili ipotesi in una apposita issue su OntoPiA
L'idea generale che mi sono fatto -guardando i dati provenienti da diversi ambiti- è che l'esigenza di un dataset centrale sia quella senz'altro di manutenere una versione nel tempo con un pattern del tipo già adottato, ma che potrebbero essere introdotti degli "alias", dei record "proxy" di comodo a cui linkare i propri, in assenza di soluzioni migliori. Questo per descrivere in modo esplicito due cose: che il puntamento avviene all'ultima versione disponibile, o con un certo grado di incertezza. In ambo i casi il valore di incertezza sarebbe inoltre calcolabile con un qualche criterio oggettivo (diverso insomma dall'affidabilità dei vari tool di linkage, tra silk, duke, openrefine, etc) (i miei 2 cents)
Scusate, ho letto i messaggi ma il senso mi sfugge. Perché dovremmo fare accrocchi vari su un dataset che era nato per uno specifico scopo e per promuovere anche una certa politica di gestione di quel tipo di dato? Siamo riusciti a fare quella cosa perché di fatto mettiamo insieme fonti dati diverse, producendo un unico dataset collegabile ad altri che hanno informazioni proprio geo che all'origine non ci sono. E' la forza di avere un approccio linked rispetto a un altro tipo di approccio. L'obiettivo infatti era poi consentire agli utenti di ricavare tutte quelle informazioni interrogando fonti di dati diverse federate grazie ai link semantici creati.
Tra l'altro la data di istituzione l'ANPR la ricava da ISTAT che io sappia (e questo è stato a lungo discusso nel repo di ANPR) quindi che non ci sia e non si possa ricavare da lì mi pare strano, ma potrei non aver capito materialmente cosa state facendo e dove volete arrivare (obiettivo finale) :)
Ma poi se capite che è lo stesso comune del dataset turtle, cosa impedisce di aggiungere l'URI di riferimento nel Web?? (non ho seguito tutto il progetto anche in termini tecnici e quindi potrei essermi persa qualcosa!)
Scusatemi non volevo andare off-topic, colpa mia temo :-) suggerivo soltanto che se serve riconciliare le cose tanto valeva riusare quanto fatto: se ci si può linkare direttamente tanto meglio! Citavo ANPR perché mi ricordavo la data provenisse di lì, se è la stessa è facilmente riproducibile per i motivi detti su!
Da un commento su Forum Italia.
OntoPiA ha definito i vocabolari controllati per le unità amministrative italiane.
Di rilevanza particolare il lavoro fatto sull'archivio storico dei comuni.
Da valutare l'integrazione dei dati di OntoPiA.