UniversalDependencies / UD_Portuguese-Bosque

This Universal Dependencies (UD) Portuguese treebank.
Other
48 stars 11 forks source link

Correct etc #388

Open wellington36 opened 2 years ago

wellington36 commented 2 years ago

Relacionado ao issue #386, correção de caso mencionado no issue seguindo outros casos do corpus e verificando na documentação, sugiro aplicar esse padrão para outros casos de etc no corpus (http://match.grew.fr/?corpus=UD_Portuguese-Bosque@dev&custom=6189c9fd85132&clustering=e.label), como marcados com upos X e com lemma etc..

arademaker commented 2 years ago

@leoalenc o que vc acha, eu até gosto da idéia de separar etc = et cetera e et/CCONJ com cc para cetera/NOUN e este conj para o primeiro elemento da coordenação. Me parece uma análise razoável. Um detalhe é o que fazer com os pontos no final das orações.

  1. A, B etc.
  2. A, B etc. e agora

Em 2 o ponto é marcador de abreviação, em 1 é tanto final de oração quanto marcador de abreviação. Como lidar de forma consistente com estes dois casos.

leoalenc commented 2 years ago

@leoalenc o que vc acha, eu até gosto da idéia de separar etc = et cetera e et/CCONJ com cc para cetera/NOUN e este conj para o primeiro elemento da coordenação. Me parece uma análise razoável. Um detalhe é o que fazer com os pontos no final das orações.

  1. A, B etc.
  2. A, B etc. e agora

Em 2 o ponto é marcador de abreviação, em 1 é tanto final de oração quanto marcador de abreviação. Como lidar de forma consistente com estes dois casos.

@arademaker , não vejo utilidade nessa separação. É uma abreviatura de uma MWE em latim, fica estranho falar da conjunção et em português e de um substantivo cetera, até porque constitui um pronome em latim! Essa ambiguidade do ponto final é um problema clássico da toquenização. Nesse caso, sim, eu desmembraria esse ponto em dois (penso como sintaticista elaborando uma gramática computacional).

arademaker commented 2 years ago

Bom, não separar significa termos que encontrar uma upostag adequada e deprel, veja discussão https://github.com/UniversalDependencies/docs/issues/820, opção por X talvez? Não vejo como ADV e acho estranho CCONJ.