Closed ghost closed 9 years ago
bom, os dois sysnets deviam ter as duas versoes (visto que os portugueses nao teem acento pra ideia), according to our new guidelines written by Livy.
2015-05-01 16:30 GMT-07:00 claufreitas notifications@github.com:
reparei que temos as palavras "idéia" e "ideia" fazendo parte de diferentes synsets, o que obviamente é um erro. Como fazer?
— Reply to this email directly or view it on GitHub https://github.com/fcbr/cl-wnbrowser/issues/85.
Valeria de Paiva http://www.cs.bham.ac.uk/~vdp/ http://valeriadepaiva.org/
concordo com a valeria, mas é preciso fazer uma varredura para corrigir isso.
outro ponto: temos palavras no plural nos synsets: mapas, pessoas...queremos isso?
nao. nao queremos palavras no plural nao, a menos que elas so existam no plural que nem oculos.
mas sim a varredura ja devia ter sido feita ha um tempao, 'e o que estou chamando de usar um lematizador. como expliquei pra Livy, o fato dela estar fazendo isso na marra nao pode contar ponto pra gente nao, pois existem ferramentas que fazem. mas pelo menos nesses dois casos que voce mencionou nos ja discutimos e tomamos as deisoes de guideline. ainda tem caso a beca onde nao temos decisoes, como os famosos "se"...
On Fri, May 1, 2015 at 4:41 PM, claufreitas notifications@github.com wrote:
outro ponto: temos palavras no plural nos synsets: mapas, pessoas...queremos isso?
— Reply to this email directly or view it on GitHub https://github.com/fcbr/cl-wnbrowser/issues/85#issuecomment-98261733.
Valeria de Paiva http://www.cs.bham.ac.uk/~vdp/ http://valeriadepaiva.org/
Certo. A questão é que, me parece, não temos um lematizador confiável para PT,certo? E se simplesmente alguma varredura em todos os synsets do tipo N e ADJ que terminam com S, retirando o "s" + lista de exceções tipo "onibus"?
oi, eu nao sei se o problema e' qualidade do lematizador. acho que a gente nem tentou nenhum. e deviamos, me parece. mas regex como vc diz tambem ajuda.
2015-05-01 18:11 GMT-07:00 claufreitas notifications@github.com:
Certo. A questão é que, me parece, não temos um lematizador confiável para PT,certo? E se simplesmente alguma varredura em todos os synsets do tipo N e ADJ que terminam com S, retirando o "s" + lista de exceções tipo "onibus"?
— Reply to this email directly or view it on GitHub https://github.com/fcbr/cl-wnbrowser/issues/85#issuecomment-98272887.
Valeria de Paiva http://www.cs.bham.ac.uk/~vdp/ http://valeriadepaiva.org/
esta discussão não é aqui.
reparei que temos as palavras "idéia" e "ideia" fazendo parte de diferentes synsets, o que obviamente é um erro. Como fazer?