UniversalDependencies / UD_Portuguese-Bosque

This Universal Dependencies (UD) Portuguese treebank.
Other
50 stars 12 forks source link

CP72-2 #325

Open wellington36 opened 3 years ago

wellington36 commented 3 years ago

À medida que o grupo de serviços que entram nos lares e nas empresas evolui, a definição de serviço universal vai evoluir também.

─┮
│ ╭─┮ À à NOUN Gender=Masc|Number=Sing obl
│ │ │ ╭─╼ medida medida ADP _ case
│ │ ╰─┶ que que NOUN Gender=Masc|Number=Sing nmod
│ │   ╭─╼ o o DET Definite=Def|Gender=Masc|Number=Sing|PronType=Art det
│ │ ╭─┾ grupo grupo NOUN Gender=Masc|Number=Sing nsubj
│ │ │ │ ╭─╼ de de ADP _ case
│ │ │ ╰─┾ serviços serviço NOUN Gender=Masc|Number=Plur nmod
│ │ │   │ ╭─╼ que que PRON Gender=Masc|Number=Plur|PronType=Rel nsubj
│ │ │   ╰─┾ entram entrar VERB Mood=Ind|Number=Plur|Person=3|Tense=Pres|VerbForm=Fin acl:relcl
│ │ │     │ ╭─╼ em em ADP _ case
│ │ │     │ ┢─╼ os o DET Definite=Def|Gender=Masc|Number=Plur|PronType=Art det
│ │ │     ╰─┾ lares lar NOUN Gender=Masc|Number=Plur obl
│ │ │       │ ╭─╼ e e CCONJ _ cc
│ │ │       │ ┢─╼ em em ADP _ case
│ │ │       │ ┢─╼ as o DET Definite=Def|Gender=Fem|Number=Plur|PronType=Art det
│ │ │       ╰─┶ empresas empresa NOUN Gender=Fem|Number=Plur conj
│ ┢─┾ evolui evoluir VERB Mood=Ind|Number=Sing|Person=3|Tense=Pres|VerbForm=Fin advcl
│ │ ╰─╼ , , PUNCT _ punct
│ │ ╭─╼ a o DET Definite=Def|Gender=Fem|Number=Sing|PronType=Art det
│ ┢─┾ definição definição NOUN Gender=Fem|Number=Sing nsubj
│ │ │ ╭─╼ de de ADP _ case
│ │ ╰─┾ serviço serviço NOUN Gender=Masc|Number=Sing nmod
│ │   ╰─╼ universal universal ADJ Gender=Masc|Number=Sing amod
│ ┢─╼ vai ir AUX Mood=Ind|Number=Sing|Person=3|Tense=Pres|VerbForm=Fin aux
╰─┾ evoluir evoluir VERB VerbForm=Inf root
┡─╼ também também ADV _ advmod
╰─╼ . . PUNCT _ punct

@leoalenc aqui temos um caso crase onde não foi quebrada, outros casos podem ser achados verificando se possui ou não lema:

cat documents/*.conllu | udapy -q util.Eval node='if ((node.form == "à" or node.form == "À" or node.form == "às" or node.form == "Às") and (node.lemma == "à" or node.lemma == "às")): print(node)' | wc -l
6

Sentença encontrada a partir do issue #300.

leoalenc commented 3 years ago

@wellington36, essa análise está totalmente bagunçada. Primeiro, a com crase é contração do artigo a com a preposição homônima a. A palavra medida é um substantivo e que é uma conjunção subordinativa. Na verdade, toda a expressão à medida que forma uma MWE.

leoalenc commented 3 years ago

@wellington36, fica melhor para mim se você apresentar os exemplos com a numeração original dos tokens.

arademaker commented 3 years ago

primeiro número é o token, segundo é o HEAD, para onde o token aponta.


─┮  
 │ ╭─┮ À NOUN obl 1 25  
 │ │ │ ╭─╼ medida ADP case 2 3  
 │ │ ╰─┶ que NOUN nmod 3 1  
 │ │   ╭─╼ o DET det 4 5  
 │ │ ╭─┾ grupo NOUN nsubj 5 17  
 │ │ │ │ ╭─╼ de ADP case 6 7  
 │ │ │ ╰─┾ serviços NOUN nmod 7 5  
 │ │ │   │ ╭─╼ que PRON nsubj 8 9  
 │ │ │   ╰─┾ entram VERB acl:relcl 9 7  
 │ │ │     │ ╭─╼ em ADP case 10 12  
 │ │ │     │ ├─╼ os DET det 11 12  
 │ │ │     ╰─┾ lares NOUN obl 12 9  
 │ │ │       │ ╭─╼ e CCONJ cc 13 16  
 │ │ │       │ ├─╼ em ADP case 14 16  
 │ │ │       │ ├─╼ as DET det 15 16  
 │ │ │       ╰─┶ empresas NOUN conj 16 12  
 │ ├─┾ evolui VERB advcl 17 25  
 │ │ ╰─╼ , PUNCT punct 18 17  
 │ │ ╭─╼ a DET det 19 20  
 │ ├─┾ definição NOUN nsubj 20 25  
 │ │ │ ╭─╼ de ADP case 21 22  
 │ │ ╰─┾ serviço NOUN nmod 22 20  
 │ │   ╰─╼ universal ADJ amod 23 22  
 │ ├─╼ vai AUX aux 24 25  
 ╰─┾ evoluir VERB root 25 0  
   ├─╼ também ADV advmod 26 25  
   ╰─╼ . PUNCT punct 27 25  
arademaker commented 3 years ago

temos alguns outros casos que merecem ser corrigidos:

% awk '$3 ~ /à|À/ {print FILENAME,$0}' documents/*
documents/CF0072.conllu 1   À   à   NOUN    N|M|S|@ADVL>    Gender=Masc|Number=Sing 25  obl _   MWE=À_medida_que
documents/CF0170.conllu 1   À   à   NOUN    N|M|S|@ADVL>    Gender=Masc|Number=Sing 12  obl _   MWE=À_primeira_vista
documents/CF0666.conllu 12  prêt-à-porter   prêt-à-porter   NOUN    <np-idf>|N|M|S|@P<  Gender=Masc|Number=Sing 10  nmod    _   _
documents/CP0048.conllu 97  Terràvista  Terràvista  PROPN   <cjt>|PROP|M|S|@N<PRED  Gender=Masc|Number=Sing 8   conj    _   SpaceAfter=No
documents/CP0132.conllu 23  pietà   pietà   NOUN    <np-idf>|N|F|S|@P<  Gender=Fem|Number=Sing  20  xcomp   _   _
documents/CP0158.conllu 20  à-vontade   à-vontade   NOUN    <np-idf>|N|M|S|@<SC Gender=Masc|Number=Sing 19  xcomp   _   _
documents/CP0248.conllu 1   À   à   NOUN    N|M|S|@ADVL>    Gender=Masc|Number=Sing 17  obl _   MWE=À_primeira_vista
documents/CP0517.conllu 27  à-vontade   à-vontade   NOUN    <np-idf>|N|M|S|@P<  Gender=Masc|Number=Sing 21  obl _   SpaceAfter=No
documents/CP0643.conllu 1   À   à   NOUN    N|M|S|@ADVL>    Gender=Masc|Number=Sing 5   obl _   MWE=À_medida_que
documents/CP0698.conllu 1   À   à   ADV N|M|S|@ADVL>    _   21  obl _   MWE=À_primeira_vista|MWEPOS=ADV
documents/CP0747.conllu 13  À   À   PROPN   PROP|F|S|@N<    Gender=Fem|Number=Sing  11  appos   _   MWE=À_Prova
documents/CP0764.conllu 3   À   À   PROPN   PROP|F|S|@P<    Gender=Fem|Number=Sing  0   root    _   MWE=À_Queima-roupa
documents/CP0880.conllu 7   prêt-à-porter   prêt-à-porter   NOUN    <np-idf>|N|M|S|@N<PRED  Gender=Masc|Number=Sing 4   appos   _   SpaceAfter=No
documents/CP0894.conllu 1   À   à   ADP <sam->|PRP|@UTT _   2   case    _   MWE=À_maneira_de

Quando no passado desmembramos as MWE que PALAVRAS anota como um único token, tivemos estes problemas. O primeiro das contrações dentro das MWE que não foram propriamente tratadas, o segundo de análises inconsistentes das MWE.

arademaker commented 3 years ago

@wellington36 observe que sempre que possível eu copio também o comando que usei para gerar a saída.