rdf: lexicalForm in Portuguese uses spaces

own-pt / openWordnet-PT

OpenWordnet-PT: an open access wordnet for Portuguese

http://openwordnet-pt.org

Other

154 stars 35 forks source link

rdf: lexicalForm in Portuguese uses spaces #157

Closed odanoburu closed 3 years ago

odanoburu commented 5 years ago

but in English they are substituted for underscores

arademaker commented 5 years ago

yep. we need to normalize it. During RDF generation, since we have explicit string delimitators, I believe we should replace underscore by spaces. But for the files...

vcvpaiva commented 5 years ago

why not keep the English, well-established, usage?

arademaker commented 5 years ago

well-established used in the dbfiles. XML files use spaces I believe.

arademaker commented 3 years ago

see #168

arademaker commented 3 years ago

Penso que o melhor é sermos consistentes, trocar todas as ocorrências de underscore por espaço nos valores da propriedade wn30:lexicalForm. Query

select *
{
  ?a wn30:lexicalForm ?lf .
  filter regex(str(?lf),"[_]+","i")
}

Isso pode, no entanto, trazer alguns problemas para valores derivados:

labels dos wordsenses
uri das words que passariam de "word-x_y" para "word-x+y" (troca do underscore por +)
maior dificuldade com a sync entre sugestões da interface web

Então precisamos avaliar mais um pouco.

arademaker commented 3 years ago

De qq modo, para as words em PT, ou pelo menos para todas que foram marcadas com lang = PT, só usamos espaços:

select *
{
  ?a wn30:lexicalForm ?lf .
  filter ( lang(?lf) = "pt" && regex(str(?lf),"[_]+","i") )
}

Esta query não retorna valores.

arademaker commented 3 years ago

lendo melhor, este issue foi aberto questionando o uso de espaços para words em PT. Neste contexto, vou fechar o issue porque decidimos sim usar espaço e não underscore. Mas como na https://github.com/globalwordnet/english-wordnet/blob/master/src/yaml/noun.time.yaml, acho que devemos também trocar as words em EN. O recurso de trocar espaços por underscore foi uma forma de encoding das informações no formato datasse files de PWN. Vou abrir outro issue relacionado.