Normalize TTL files - Githubissues

italia / daf-ontologie-vocabolari-controllati

Elenco di ontologie e vocabolari controllati. Per maggiori informazioni, si veda il readme principale e quello di singoli vocabolari/ontologie, ove presente, e la seguente documentazione

https://github.com/italia/daf-ontologie-vocabolari-controllati/wiki

Creative Commons Attribution 4.0 International

80 stars 52 forks source link

Normalize TTL files #192

Closed ioggstream closed 8 months ago

ioggstream commented 2 years ago

I expect

To normalize TTL files:

use spaces instead of tabs to ease diff and fixing bugs.
Use prefixes to shorten files (e.g. cities.ttl is above github allowed file size )

giorgialodi commented 2 years ago

cities.ttl was generated by an automatic tool through a specific process. Cities has many occurrences because it is an archive of information about cities over time. You should expect a bigger size with respect to other controlled vocabularies we have. Probably github is not appropriate for that then. RDF files can be big in size due to the many triples that are defined.

giorgialodi commented 8 months ago

@Clou-dia chiuderei l'issue, soprattutto perché quel vocabolario non è nemmeno più sotto il nostro controllo diretto e comunque generato da un processo automatico.

ioggstream commented 8 months ago

@giorgialodi @bfabio Questo issue non riguarda cities.ttl ma i file .ttl in generale. Riaprirei e valuterei degli strumenti di formattazione dei file analogamente per quanto accade con altri file (e.g., black per python, ...)

giorgialodi commented 8 months ago

@ioggstream tutto quello scritto sopra è generato da strumenti automatici (o protege per le ontologie) o altri tool per trasformare CSV in RDF (come nel caso di cities per esempio). Direi che non possiamo metterci lì poi a valle a ritrasformarli. Nessuno lo fa onestamente come pratica! PS: i file RDF sono spessissimo molto grandi in dimensioni!

ioggstream commented 8 months ago

Per automatico intendo eseguito machine to machine, con le impostazioni definite su una macchina server. Se è un tool guidato da una persona (IDE, excel, prompt AI, ...) con la versione e le impostazioni presenti sul client, non lo considero automatico/riproducibile.

Poi sulla soluzione da adottare, parliamone. Se protege può riformattare deterministicamente lanciandolo all'interno di una CI per me va bene.

giorgialodi commented 8 months ago

Ho capito, ma protege usa serializzazioni standard. Istat usa un altro tool che avrà anche lui immagino le solite serializzazioni. Il tool di trasformazione da CSV a RDF invece dovrebbe essere parte di un processo automatico e anche lì usa serializzazioni standard RDF/turtle. Ripeto, non possiamo non fidarci di strumenti allo stato dell'arte stra consolidati per fare queste cose :)