own-pt / openWordnet-PT

OpenWordnet-PT: an open access wordnet for Portuguese
http://openwordnet-pt.org
Other
154 stars 35 forks source link

lexical forms with spaces #161

Closed odanoburu closed 4 years ago

odanoburu commented 4 years ago

the following list produced by this query shows the lexical forms which include parentheses. the PWN data has no instances of this, and our txt format at own-pt/own-en own-pt/own-pt reserves parentheses for special purposes, so we'd like to change these lexical forms to not include parentheses.

"audição (sentidos)"
"sedimentação (geologia)"
"desesperado(a)"
"rega (pulverização)"
"substituição (processos químicos)"
"sedimentação (processo industrial)"
"peso (aspectos físicos)"
"canivete (suíço)"
"resoluções (legislação)"
"literatura (avaliação)"
"selecção (processos físicos)"
"contenção (indústria nuclear)"
"redução (química)"
"recursos (legislação)"
"inventários (elaboração)"
"reprodução (biologia)"
"esterilização (processo)"
"dispersão (processos físico-químicos)"
"reservas (ecologia)"
"rendimento (agricultura)"
"ventilação (processos industriais)"
"cumprimento (legal)"
"tempo (meteorologia)"
"estações (clima)"
"efeito secundário (química)"
"Recife(pernambuco)"
"água (substância)"
"Aedes (stegomyia) albopictus"
"colorido(a)"
"trajectória (parâmetro)"
"Aedes (stegomyia) aegypti"
"saldo (económico)"
"esterilização (biologia)"
"transpiração (flora)"
"economia (ciência)"
"reparação (legal)"
"bases (química)"
"armadilhas (animais)"
"sorção (processos químicos)"
"conselho (administrativo)"
"cobertura vegetal (restauração)"
"doutrina (direito)"
"perigos (segurança no trabalho)"
"lavagem (roupa)"
"macaco (fig.)"
"Aedes (Stegomyia) albopictus"
"servidão (legal)"
"deposição (poluição)"
"arvoredo (talhadia)"
"Aedes (Stegomyia) aegypti"
"chaminés (indústria)"
"demonstrabilidade (ciência)"
"centro da cidade (degradado)"
"incorporação (processos industriais)"
"refrigerante (mecânica)"
"índices (parâmetros)"
"rendimento (economia)"
"diferenciação (biologia)"
"sistemas de alerta (imediato)"
"decantação (floculação)"
"contabilidade (execução)"
"fotografia (imagem)"
"refúgios (ecologia)"
"relevo (geografia)"
"produtos industriais (plantas)"
"enchimento (materiais)"
"enriquecimento (nutrientes)"
"direito (ordenamento jurídico)"
"tirar a fralda (de uma criança) "
" decidir (se)"
"contar (com)"
" batida (policial)"
"mensagem (de rádio ou tv)"
"drogar (se)"
"(militar) ocupação"
"importar (se) "
"(de) tempo parcial"
"preocupar (se) "
"(de) tempo integral"
"alguém pertencente a (ou como se pertencente a) época de Edward VII"
"provar (se)"
"posicionar (se) "
"perder (se)" 
arademaker commented 4 years ago

many cases have already suggestions for removing these strange 'words'. We will need to:

  1. adapt the script that generates the RDF from the website.
  2. the new RDF generated will contain not only the data about also the votes and suggestions (as I have already discussed with @hmuniz)
  3. since some suggestions do not have votes yet, we will have to find a way to overcome this for not blockIng the migration.
odanoburu commented 4 years ago

stale