Closed suemi-higuchi closed 3 years ago
@claudiafreitas este caso é bem claro, mas temos lava-jato como 3 tokens em:
https://github.com/cpdoc/dhbb-nlp/blob/master/udp/1000.conllu#L2660-L2662
E temos Lar-abrigo como um token em:
https://github.com/cpdoc/dhbb-nlp/blob/650d2aec6be2fcf71d5de855f50eeffb66d39ddc/udp/6.conllu#L1221
E UD fala http://universaldependencies.org/u/overview/tokenization.html. Como diferenciar estes casos acima de "bacharelou-se" ?
Dois casos neste arquivo 4.conllu , o outro não informado pela @suemi-higuchi estava na sentença 22. Ambos corrigidos no commit a2c9b05d.
estou mantendo este issue aberto até ter resposta da @claudiafreitas sobre questões acima. Por que então teremos que corrigir o 6.conllu.
Outro caso para decidirmos como tokenizar vice-governadora
, ocorre neste arquivo 4.conllu também.
Neste mesmo 4.conllu, as sentenças 29, 30, 31 e 32 não deveriam também ser uma apenas?
Finalmente, @claudiafreitas note que optei por usar appos
nos casos abaixo. faz sentido?
minha opinião é que o que está como hífen (cachorro-quente; lava-jato; couve-flor; porta-retratos; vice-presidente etc) deve sempre ser considerado uma unidade. Para separar dos verbos ("bacharelou-se"), sem precisar recorrer a análises, a pista óbvia é que se houver hífen + pronome (-se; -lo; -no; -lhe etc) trata-se de outra situação, e portanto deve ser separado.
Ok para a utilização dos apostos, seguindo o que previmos.
@claudiafreitas vamos fazer isso independente da recomendação de UD?
@arademaker A recomendação UD deixa em aberto, porque a noção de palavra é totalmente dependente de língua. O importante é tomar uma decisão, documentar e ser consistente
Tem então para fechar este issue temos que resolver as inconsistências que existem
de acordo. E a busca por inconsistência pode/deve ser dupla: DHBB e Bosque... (e com um script que permita a reutilização em futuros materiais "pré-analisados" pelo PALAVRAS?
nova abordagem, este issue não se aplica mais.
@arademaker , este erro de segmentação acontece na sent id=17, no 4.conllu