cpdoc / dhbb-nlp

processamentos DHBB
Other
5 stars 2 forks source link

Segmentação errada em "coligação PSDB/Partido Renovador Progressista" #3

Closed suemi-higuchi closed 3 years ago

suemi-higuchi commented 7 years ago

@arademaker , este erro de segmentação acontece na sent id=17, no 4.conllu

arademaker commented 7 years ago

@claudiafreitas este caso é bem claro, mas temos lava-jato como 3 tokens em:

https://github.com/cpdoc/dhbb-nlp/blob/master/udp/1000.conllu#L2660-L2662

E temos Lar-abrigo como um token em:

https://github.com/cpdoc/dhbb-nlp/blob/650d2aec6be2fcf71d5de855f50eeffb66d39ddc/udp/6.conllu#L1221

E UD fala http://universaldependencies.org/u/overview/tokenization.html. Como diferenciar estes casos acima de "bacharelou-se" ?

arademaker commented 7 years ago

Dois casos neste arquivo 4.conllu , o outro não informado pela @suemi-higuchi estava na sentença 22. Ambos corrigidos no commit a2c9b05d.

arademaker commented 7 years ago

estou mantendo este issue aberto até ter resposta da @claudiafreitas sobre questões acima. Por que então teremos que corrigir o 6.conllu.

Outro caso para decidirmos como tokenizar vice-governadora, ocorre neste arquivo 4.conllu também.

Neste mesmo 4.conllu, as sentenças 29, 30, 31 e 32 não deveriam também ser uma apenas?

Finalmente, @claudiafreitas note que optei por usar appos nos casos abaixo. faz sentido?

  1. https://github.com/cpdoc/dhbb-nlp/blob/a2c9b05d1c22d22225a14e8ce68c42c357f7225a/udp/4.conllu#L1026
  2. https://github.com/cpdoc/dhbb-nlp/blob/a2c9b05d1c22d22225a14e8ce68c42c357f7225a/udp/4.conllu#L783
claudiafreitas commented 7 years ago

minha opinião é que o que está como hífen (cachorro-quente; lava-jato; couve-flor; porta-retratos; vice-presidente etc) deve sempre ser considerado uma unidade. Para separar dos verbos ("bacharelou-se"), sem precisar recorrer a análises, a pista óbvia é que se houver hífen + pronome (-se; -lo; -no; -lhe etc) trata-se de outra situação, e portanto deve ser separado.

claudiafreitas commented 7 years ago

Ok para a utilização dos apostos, seguindo o que previmos.

arademaker commented 7 years ago

@claudiafreitas vamos fazer isso independente da recomendação de UD?

claudiafreitas commented 7 years ago

@arademaker A recomendação UD deixa em aberto, porque a noção de palavra é totalmente dependente de língua. O importante é tomar uma decisão, documentar e ser consistente

arademaker commented 7 years ago

Tem então para fechar este issue temos que resolver as inconsistências que existem

claudiafreitas commented 7 years ago

de acordo. E a busca por inconsistência pode/deve ser dupla: DHBB e Bosque... (e com um script que permita a reutilização em futuros materiais "pré-analisados" pelo PALAVRAS?

arademaker commented 3 years ago

nova abordagem, este issue não se aplica mais.