own-pt / openWordnet-PT

OpenWordnet-PT: an open access wordnet for Portuguese
http://openwordnet-pt.org
Other
154 stars 35 forks source link

synsets with no links #152

Open odanoburu opened 5 years ago

odanoburu commented 5 years ago

some synsets have no links to any other synsets, like http://wnpt.sl.res.ibm.com/wn/synset?id=00894980-a

mirrors https://github.com/globalwordnet/english-wordnet/issues/172

arademaker commented 3 years ago

podemos tentar quantificar? Se forem poucos, podemos sugerir correção, se forem muitos, deixamos isso para long term.

odanoburu commented 3 years ago

temos ~8 mil resultados na versão df754c2e4ee72127553147f16d0d2fedd6b0a9fb para a seguinte query:

SELECT ?synset WHERE {
  ?synset wn30:lexicographerFile  [].
  ## uncomment for checking nouns only:
  # ?synset rdf:type wn30:NounSynset
  MINUS { ?synset2 wn30:lexicographerFile []. 
          {?synset ?pred ?synset2.} UNION {?synset2 ?pred ?synset}
        }
}

note que a query se restringe aos synsets de Princeton (naturalmente). se restringirmos à substantivos, temos zero resultados (o que é bom (e esperado?)). eu inspecionei alguns resultados manualmente e acho que seria um trabalho difícil (e lexicográfico) para tentar dar relações a alguns (todos?) deles

arademaker commented 3 years ago

No curto prazo, eu gostaria apenas de confirmar se estes casos estão nos arquivos Dbfiles da PWN 3.0. Ou seja, se os erros não foram introduzidos na conversão RDF.

Estes synsets, devem ter senses com relações com outros senses, logo não estão completamente descontentados.

Mas @odanoburu , porque vc usou acima a relação lexicographerFile? Teria sido apenas uma forma de caracterizar que os nós são de synsets?

vcvpaiva commented 3 years ago

acho que seria importante ver quantos sao verbos: no issue em ingles o McCrae diz 130 o que me parece muito.

odanoburu commented 3 years ago

No curto prazo, eu gostaria apenas de confirmar se estes casos estão nos arquivos Dbfiles da PWN 3.0. Ou seja, se os erros não foram introduzidos na conversão RDF.

creio eu que estavam sim. podemos carregar os dados do McCrae ou de https://github.com/jrvosse/wordnet-3.0-rdf e comparar!

Estes synsets, devem ter senses com relações com outros senses, logo não estão completamente descontentados.

de fato! mas ainda assim suponho que alguns casos realmente estejam isolados na rede…

Mas @odanoburu , porque vc usou acima a relação lexicographerFile? Teria sido apenas uma forma de caracterizar que os nós são de synsets?

isso, já que não temos uma classe Synset única (talvez tenha uma forma melhor, mas eu não lembro :sweat_smile:)

acho que seria importante ver quantos sao verbos: no issue em ingles o McCrae diz 130 o que me parece muito.

achei 124 na versão https://github.com/own-pt/openWordnet-PT/commit/df754c2e4ee72127553147f16d0d2fedd6b0a9fb. o McCrae falou isso da versão dele já editada, ou da PWN? e se da PWN, provável que tenha sido da 3.1, que é a que ele usou como base, certo?

vcvpaiva commented 3 years ago

o McCrae falou isso da versão dele já editada, ou da PWN? e se da PWN, provável que tenha sido da 3.1, que é a que ele usou como base, certo?

bom, eu so' estava lendo o issue em ingles que voce colou acima https://github.com/globalwordnet/english-wordnet/issues/172 no dia Jul 18, 2019 ele disse

This seems to be a very broad task, that I don't have a clear plan for dealing with. In total this affects 7,805 adjectives and 130 verbs.