UniversalDependencies / UD_Portuguese-Bosque

This Universal Dependencies (UD) Portuguese treebank.
Other
50 stars 12 forks source link

preposição `em` anotada de forma inconsistente #280

Closed arademaker closed 4 years ago

arademaker commented 4 years ago
% awk '$2 ~ /^[Ee]m$/ {print $2,$3,$4,$8}' *.conllu | sort | uniq -c
   1 Em Em PROPN appos
   1 Em Em PROPN flat:name
   4 Em em ADP advmod
 544 Em em ADP case
   2 Em em ADP cc
   2 Em em ADP obl
   1 Em em ADP parataxis
   2 Em em SCONJ mark
   5 em em ADP advmod
5706 em em ADP case
  47 em em ADP cc
   4 em em ADP compound
   6 em em ADP fixed
   3 em em ADP flat:name
   1 em em ADP mark
   2 em em ADP nmod
  16 em em ADP obl
   1 em em ADP xcomp
  79 em em SCONJ mark

Veja também https://github.com/UniversalDependencies/UD_Portuguese-GSD/issues/9.

Considerando alguns dos casos (vide screenshot), pesquisando um pouco na gramática de Português que tive acesso e lendo a documentação de UD em https://universaldependencies.org/u/dep/index.html, me parece que temos os casos:

Todos os outros casos parecem estranhos.

image
arademaker commented 4 years ago

no entanto será sempre analisado como em o entanto (fixed) com head em que será normalmente uma conjunção.

em favor de é outra expressão comum, com head em que geralmente é obl de algum verbo.

em pé de igualdade outra expressão com `em como head. Neste caso em geral modifica um nome com função de ADJ. Uma sentença corrigida.

hoje em dia e na medida em que o em não é head mas fixed para outra parte da expressão.

em vez de com head em geralmente cc com função de coordenação.

Os casos de flat eram de alguns casos de títulos de obras. Refiz analise em função da preferencia de UD por analises sintáticas de títulos. Vide #283

Atual situação:

% awk '$2 ~ /^[Ee]m$/ {print $3,$4,$8}' documents/*.conllu | sort | uniq -c
   9 em ADP advmod
   1 em ADP amod
6260 em ADP case
  49 em ADP cc
   6 em ADP fixed
  19 em ADP obl
  83 em SCONJ mark