okfn-brasil / lexml-vocabulary

RDF vocabulary of LexML, revision and ontology-alignment with Wikidata and others
1 stars 0 forks source link

Duplicação no vocabulário de autoridade v1.0 #5

Open ppKrauss opened 7 years ago

ppKrauss commented 7 years ago

O vocabulário de autoridades (CSV) possui itens duplicados (no atributo about), tais como: procuradoria.geral.republica, imprensa.oficial, tribunal.regional.trabalho;turma.1 e outros.

Tem seus motivos, na procuradoria.geral.republica por exemplo são as facetas "Federal::Ministério Público da União::Procuradoria Geral da República" e "Federal::Procuradoria Geral da República" que justificam a duplicação.

Mas a boa prática sugere que não hajam duplicações, e que se opte por uma só faceta — relativa ao termo corrente, canônico ou mais utilizado no acervo LexML.

As demais facetas podem ser tratadas mais objetivamente como instâncias, fazendo uso da proposta da issue #3, onde a informação relativa às variantes de conotação do mesmo nome ficaria registada num arquivo separado, o instancia.rdf.xml.

Mesmo no caso de TipoDocumento, quando existirem significados distintos, podemos resolver indicando diferentes instâncias semânticas como instâncias onde o nome (fragmento de URN) se torna válido.


Procedimento

  1. Detectar duplicações via base SQL;
  2. Expressar duplicados do passo anterior em instancia.rdf.xml (issue #3) ou sinonimos.rdf.xml (issue #4);
  3. Eliminar duplicados dos vocabulários RDF.
  4. Atualizar as bases de dados, para refletir as correções em todos os arquivos.