Skip to content
This repository has been archived by the owner on Mar 23, 2023. It is now read-only.

Duplicação no vocabulário de autoridade v1.0 #5

Open
ppKrauss opened this issue Oct 19, 2017 · 0 comments
Open

Duplicação no vocabulário de autoridade v1.0 #5

ppKrauss opened this issue Oct 19, 2017 · 0 comments

Comments

@ppKrauss
Copy link
Contributor

ppKrauss commented Oct 19, 2017

O vocabulário de autoridades (CSV) possui itens duplicados (no atributo about), tais como: procuradoria.geral.republica, imprensa.oficial, tribunal.regional.trabalho;turma.1 e outros.

Tem seus motivos, na procuradoria.geral.republica por exemplo são as facetas "Federal::Ministério Público da União::Procuradoria Geral da República" e "Federal::Procuradoria Geral da República"
que justificam a duplicação.

Mas a boa prática sugere que não hajam duplicações, e que se opte por uma só faceta — relativa ao termo corrente, canônico ou mais utilizado no acervo LexML.

As demais facetas podem ser tratadas mais objetivamente como instâncias, fazendo uso da proposta da issue #3, onde a informação relativa às variantes de conotação do mesmo nome ficaria registada num arquivo separado, o instancia.rdf.xml.

Mesmo no caso de TipoDocumento, quando existirem significados distintos, podemos resolver indicando diferentes instâncias semânticas como instâncias onde o nome (fragmento de URN) se torna válido.


Procedimento

  1. Detectar duplicações via base SQL;
  2. Expressar duplicados do passo anterior em instancia.rdf.xml (issue Inclusão de Wikidata-ID de prefixos de URN LEX em arquivo RDF complementar #3) ou sinonimos.rdf.xml (issue RDF independente para sinônimos não-canônicos #4);
  3. Eliminar duplicados dos vocabulários RDF.
  4. Atualizar as bases de dados, para refletir as correções em todos os arquivos.
Sign up for free to subscribe to this conversation on GitHub. Already have an account? Sign in.
Projects
None yet
Development

No branches or pull requests

1 participant