Open wellington36 opened 3 years ago
@wellington36, essa análise está totalmente bagunçada. Primeiro, a com crase é contração do artigo a com a preposição homônima a. A palavra medida é um substantivo e que é uma conjunção subordinativa. Na verdade, toda a expressão à medida que forma uma MWE.
@wellington36, fica melhor para mim se você apresentar os exemplos com a numeração original dos tokens.
primeiro número é o token, segundo é o HEAD, para onde o token aponta.
─┮
│ ╭─┮ À NOUN obl 1 25
│ │ │ ╭─╼ medida ADP case 2 3
│ │ ╰─┶ que NOUN nmod 3 1
│ │ ╭─╼ o DET det 4 5
│ │ ╭─┾ grupo NOUN nsubj 5 17
│ │ │ │ ╭─╼ de ADP case 6 7
│ │ │ ╰─┾ serviços NOUN nmod 7 5
│ │ │ │ ╭─╼ que PRON nsubj 8 9
│ │ │ ╰─┾ entram VERB acl:relcl 9 7
│ │ │ │ ╭─╼ em ADP case 10 12
│ │ │ │ ├─╼ os DET det 11 12
│ │ │ ╰─┾ lares NOUN obl 12 9
│ │ │ │ ╭─╼ e CCONJ cc 13 16
│ │ │ │ ├─╼ em ADP case 14 16
│ │ │ │ ├─╼ as DET det 15 16
│ │ │ ╰─┶ empresas NOUN conj 16 12
│ ├─┾ evolui VERB advcl 17 25
│ │ ╰─╼ , PUNCT punct 18 17
│ │ ╭─╼ a DET det 19 20
│ ├─┾ definição NOUN nsubj 20 25
│ │ │ ╭─╼ de ADP case 21 22
│ │ ╰─┾ serviço NOUN nmod 22 20
│ │ ╰─╼ universal ADJ amod 23 22
│ ├─╼ vai AUX aux 24 25
╰─┾ evoluir VERB root 25 0
├─╼ também ADV advmod 26 25
╰─╼ . PUNCT punct 27 25
temos alguns outros casos que merecem ser corrigidos:
% awk '$3 ~ /à|À/ {print FILENAME,$0}' documents/*
documents/CF0072.conllu 1 À à NOUN N|M|S|@ADVL> Gender=Masc|Number=Sing 25 obl _ MWE=À_medida_que
documents/CF0170.conllu 1 À à NOUN N|M|S|@ADVL> Gender=Masc|Number=Sing 12 obl _ MWE=À_primeira_vista
documents/CF0666.conllu 12 prêt-à-porter prêt-à-porter NOUN <np-idf>|N|M|S|@P< Gender=Masc|Number=Sing 10 nmod _ _
documents/CP0048.conllu 97 Terràvista Terràvista PROPN <cjt>|PROP|M|S|@N<PRED Gender=Masc|Number=Sing 8 conj _ SpaceAfter=No
documents/CP0132.conllu 23 pietà pietà NOUN <np-idf>|N|F|S|@P< Gender=Fem|Number=Sing 20 xcomp _ _
documents/CP0158.conllu 20 à-vontade à-vontade NOUN <np-idf>|N|M|S|@<SC Gender=Masc|Number=Sing 19 xcomp _ _
documents/CP0248.conllu 1 À à NOUN N|M|S|@ADVL> Gender=Masc|Number=Sing 17 obl _ MWE=À_primeira_vista
documents/CP0517.conllu 27 à-vontade à-vontade NOUN <np-idf>|N|M|S|@P< Gender=Masc|Number=Sing 21 obl _ SpaceAfter=No
documents/CP0643.conllu 1 À à NOUN N|M|S|@ADVL> Gender=Masc|Number=Sing 5 obl _ MWE=À_medida_que
documents/CP0698.conllu 1 À à ADV N|M|S|@ADVL> _ 21 obl _ MWE=À_primeira_vista|MWEPOS=ADV
documents/CP0747.conllu 13 À À PROPN PROP|F|S|@N< Gender=Fem|Number=Sing 11 appos _ MWE=À_Prova
documents/CP0764.conllu 3 À À PROPN PROP|F|S|@P< Gender=Fem|Number=Sing 0 root _ MWE=À_Queima-roupa
documents/CP0880.conllu 7 prêt-à-porter prêt-à-porter NOUN <np-idf>|N|M|S|@N<PRED Gender=Masc|Number=Sing 4 appos _ SpaceAfter=No
documents/CP0894.conllu 1 À à ADP <sam->|PRP|@UTT _ 2 case _ MWE=À_maneira_de
Quando no passado desmembramos as MWE que PALAVRAS anota como um único token, tivemos estes problemas. O primeiro das contrações dentro das MWE que não foram propriamente tratadas, o segundo de análises inconsistentes das MWE.
@wellington36 observe que sempre que possível eu copio também o comando que usei para gerar a saída.