Open wellington36 opened 3 years ago
@leoalenc o que vc acha, eu até gosto da idéia de separar etc = et cetera e et/CCONJ com cc
para cetera/NOUN e este conj para o primeiro elemento da coordenação. Me parece uma análise razoável. Um detalhe é o que fazer com os pontos no final das orações.
- A, B etc.
- A, B etc. e agora
Em 2 o ponto é marcador de abreviação, em 1 é tanto final de oração quanto marcador de abreviação. Como lidar de forma consistente com estes dois casos.
@leoalenc o que vc acha, eu até gosto da idéia de separar etc = et cetera e et/CCONJ com
cc
para cetera/NOUN e este conj para o primeiro elemento da coordenação. Me parece uma análise razoável. Um detalhe é o que fazer com os pontos no final das orações.
- A, B etc.
- A, B etc. e agora
Em 2 o ponto é marcador de abreviação, em 1 é tanto final de oração quanto marcador de abreviação. Como lidar de forma consistente com estes dois casos.
@arademaker , não vejo utilidade nessa separação. É uma abreviatura de uma MWE em latim, fica estranho falar da conjunção et em português e de um substantivo cetera, até porque constitui um pronome em latim! Essa ambiguidade do ponto final é um problema clássico da toquenização. Nesse caso, sim, eu desmembraria esse ponto em dois (penso como sintaticista elaborando uma gramática computacional).
Bom, não separar significa termos que encontrar uma upostag adequada e deprel, veja discussão https://github.com/UniversalDependencies/docs/issues/820, opção por X talvez? Não vejo como ADV e acho estranho CCONJ.
Relacionado ao issue #386, correção de caso mencionado no issue seguindo outros casos do corpus e verificando na documentação, sugiro aplicar esse padrão para outros casos de etc no corpus (http://match.grew.fr/?corpus=UD_Portuguese-Bosque@dev&custom=6189c9fd85132&clustering=e.label), como marcados com upos
X
e com lemmaetc.
.