Closed odanoburu closed 3 years ago
yep. we need to normalize it. During RDF generation, since we have explicit string delimitators, I believe we should replace underscore by spaces. But for the files...
why not keep the English, well-established, usage?
well-established used in the dbfiles. XML files use spaces I believe.
see #168
Penso que o melhor é sermos consistentes, trocar todas as ocorrências de underscore por espaço nos valores da propriedade wn30:lexicalForm
. Query
select *
{
?a wn30:lexicalForm ?lf .
filter regex(str(?lf),"[_]+","i")
}
Isso pode, no entanto, trazer alguns problemas para valores derivados:
Então precisamos avaliar mais um pouco.
De qq modo, para as words em PT, ou pelo menos para todas que foram marcadas com lang = PT, só usamos espaços:
select *
{
?a wn30:lexicalForm ?lf .
filter ( lang(?lf) = "pt" && regex(str(?lf),"[_]+","i") )
}
Esta query não retorna valores.
lendo melhor, este issue foi aberto questionando o uso de espaços para words em PT. Neste contexto, vou fechar o issue porque decidimos sim usar espaço e não underscore. Mas como na https://github.com/globalwordnet/english-wordnet/blob/master/src/yaml/noun.time.yaml, acho que devemos também trocar as words em EN. O recurso de trocar espaços por underscore foi uma forma de encoding das informações no formato datasse files de PWN. Vou abrir outro issue relacionado.
but in English they are substituted for underscores