own-pt / cl-wnbrowser

A collaborative editor for OpenWordnet-PT.
http://openwordnet-pt.org
Other
7 stars 8 forks source link

unificação de formas - acentos, tremas etc #85

Closed ghost closed 9 years ago

ghost commented 9 years ago

reparei que temos as palavras "idéia" e "ideia" fazendo parte de diferentes synsets, o que obviamente é um erro. Como fazer?

vcvpaiva commented 9 years ago

bom, os dois sysnets deviam ter as duas versoes (visto que os portugueses nao teem acento pra ideia), according to our new guidelines written by Livy.

2015-05-01 16:30 GMT-07:00 claufreitas notifications@github.com:

reparei que temos as palavras "idéia" e "ideia" fazendo parte de diferentes synsets, o que obviamente é um erro. Como fazer?

— Reply to this email directly or view it on GitHub https://github.com/fcbr/cl-wnbrowser/issues/85.

Valeria de Paiva http://www.cs.bham.ac.uk/~vdp/ http://valeriadepaiva.org/

ghost commented 9 years ago

concordo com a valeria, mas é preciso fazer uma varredura para corrigir isso.

ghost commented 9 years ago

outro ponto: temos palavras no plural nos synsets: mapas, pessoas...queremos isso?

vcvpaiva commented 9 years ago

nao. nao queremos palavras no plural nao, a menos que elas so existam no plural que nem oculos.

mas sim a varredura ja devia ter sido feita ha um tempao, 'e o que estou chamando de usar um lematizador. como expliquei pra Livy, o fato dela estar fazendo isso na marra nao pode contar ponto pra gente nao, pois existem ferramentas que fazem. mas pelo menos nesses dois casos que voce mencionou nos ja discutimos e tomamos as deisoes de guideline. ainda tem caso a beca onde nao temos decisoes, como os famosos "se"...

On Fri, May 1, 2015 at 4:41 PM, claufreitas notifications@github.com wrote:

outro ponto: temos palavras no plural nos synsets: mapas, pessoas...queremos isso?

— Reply to this email directly or view it on GitHub https://github.com/fcbr/cl-wnbrowser/issues/85#issuecomment-98261733.

Valeria de Paiva http://www.cs.bham.ac.uk/~vdp/ http://valeriadepaiva.org/

ghost commented 9 years ago

Certo. A questão é que, me parece, não temos um lematizador confiável para PT,certo? E se simplesmente alguma varredura em todos os synsets do tipo N e ADJ que terminam com S, retirando o "s" + lista de exceções tipo "onibus"?

vcvpaiva commented 9 years ago

oi, eu nao sei se o problema e' qualidade do lematizador. acho que a gente nem tentou nenhum. e deviamos, me parece. mas regex como vc diz tambem ajuda.

2015-05-01 18:11 GMT-07:00 claufreitas notifications@github.com:

Certo. A questão é que, me parece, não temos um lematizador confiável para PT,certo? E se simplesmente alguma varredura em todos os synsets do tipo N e ADJ que terminam com S, retirando o "s" + lista de exceções tipo "onibus"?

— Reply to this email directly or view it on GitHub https://github.com/fcbr/cl-wnbrowser/issues/85#issuecomment-98272887.

Valeria de Paiva http://www.cs.bham.ac.uk/~vdp/ http://valeriadepaiva.org/

arademaker commented 9 years ago

esta discussão não é aqui.