cpdoc / dhbb-nlp

processamentos DHBB
Other
5 stars 2 forks source link

Verbo rar? #5

Closed suemi-higuchi closed 7 years ago

suemi-higuchi commented 7 years ago

No 6.conllu, sent_id=20, ele transformou um noun em verb, que ficou sendo o root:

1   Além    além    ADV _   _   4   advmod  _   _
2-3 dos _   _   _   _   _   _   _   _
2   de  de  ADP _   _   3   case    _   _
3   os  o   DET _   Definite=Def|Gender=Masc|Number=Plur|PronType=Art   4   det _   _
4   ramos   rar VERB    _   Mood=Ind|Number=Plur|Person=1|Tense=Pres|VerbForm=Fin   0   root    _   SpacesAfter=\n
5   mencionados mencionado  NOUN    _   Gender=Masc|Number=Plur 4   obj _   SpaceAfter=No
arademaker commented 7 years ago

Aqui realmente o parser errou feio. Vamos ter que editar toda a análise, sem editor é chato mas não tem outra alternativa enquanto o @DanielSpecht não termina o editor.

arademaker commented 7 years ago

Se @claudiafreitas achar errado, reabrimos este issue, mas corrigi sentença manualmente em 45863e42.

claudiafreitas commented 7 years ago

@arademaker , vi a sentença lá. A correção do verbo "rar" está ok, mas a coordenação em "a distribuição de óleos, seguros e exportação e importação" está bem mal, porque "seguros" e "exportação" dependem de "óleos" (31), mas está dependente de 12.

GPPassos commented 7 years ago

Não concordo, @claudiafreitas. A frase é Além dos ramos mencionados, sua atividade empresarial abrangeu a indústria açucareira, de cal e cálcio, de manteiga, de artefatos de ferro, a distribuição de óleos, seguros e exportação e importação. "seguros" e "exportação e importação" não são outras coisas a serem distribuídas para estarem em coordenação com "óleos". ("distribuição de seguros" seria até possível, mas bem estranho...)

Uma leitura é de que a atividade empresarial dele abrangeu:

Nessa leitura, o parser estaria correto em fazer "cal" (16), "manteiga" (21) e "artefatos" (24) dependerem de "açucareira" (13) (por coordenação), assim como "cálcio" (18) depender de "cal" (16). Do mesmo modo, o parser teria acertado em fazer "seguros" (33) e "exportação" (35) dependerem de "indústria" (12) .

Note também que essa leitura é a sugerida pelo uso das vírgulas e do "e" na frase (nela, o uso das vírgulas e conjunções está consistente).

claudiafreitas commented 7 years ago

certo. entao "seguros" e "exportação e importação" devem ser dependentes de indústria. ok

Em 3 de agosto de 2017 15:04, Guilherme Passos notifications@github.com escreveu:

Não concordo, @claudiafreitas https://github.com/claudiafreitas. A frase é Além dos ramos mencionados, sua atividade empresarial abrangeu a indústria açucareira, de cal e cálcio, de manteiga, de artefatos de ferro, a distribuição de óleos, seguros e exportação e importação. "seguros" e "exportação e importação" não são outras coisas a serem distribuídas para estarem em coordenação com "óleos". ("distribuição de seguros" seria até possível, mas bem estranho...)

Uma leitura é de que a atividade empresarial dele abrangeu

  • indústrias:
    • açucareira
    • cal e cálcio
    • manteiga
    • artefatos de ferro
  • distribuição de óleos
  • seguros
  • exportação e importação

Nessa leitura, o parser estaria correto em fazer "cal" (16), "manteiga" (21) e "artefatos" (24) dependerem de "açucareira" (13) (por coordenação), assim como "cálcio" (18) depender de "cal" (16). Do mesmo modo, o parser teria acertado em fazer "seguros" (33) e "exportação" (35) dependerem de "indústria" (12) .

Note também que essa leitura é a sugerida pelo uso das vírgulas e do "e" na frase (nela, o uso das vírgulas e conjunções está consistente).

— You are receiving this because you were mentioned. Reply to this email directly, view it on GitHub https://github.com/cpdoc/dhbb-nlp/issues/5#issuecomment-320045932, or mute the thread https://github.com/notifications/unsubscribe-auth/AKT3m6i7see_yNOCqb7SroanBRyXbuGUks5sUgu8gaJpZM4OqB-Q .

GPPassos commented 7 years ago

Também estou com dúvidas após as últimas mudanças, que gerou isto: obl(Além-1, ramos-4)

Além-1 é uma function word, enquanto ramos-4 é uma content word, de forma que não parece correto para UD o primeiro ser pai da segunda. Outro problema é termos mark(ramos-4, de-2), já que mark introduz uma cláusula subordinada finita, sendo que aqui não temos uma cláusula, mas um nominal.

O que parece estar mais de acordo é que ramos-4 dependa diretamente da raiz (abrangeu-10) pela relação de obl, assim como de-3 continue sendo case de ramos-4, como o parser havia marcado.

O que gera dúvida é quem é o head de Além-1... Se ramos-4 depende diretamente da raiz, faz sentido que Além-1 dependa diretamente de ramos-4. Isso me sugere que "além de" poderia ser marcado como uma fixedexpression (assim como because of em inglês, no exemplo da documentação). Daí poderemos ter:

case(ramos-4,Além-1)
fixed(Além-1,de-2)

Por fim, como "além (de)" estaria modificando um nome (ramos-4), a POS ser ADV é estranho, afinal:

Adverbs are words that typically modify verbs for such categories as time, place, direction or manner. They may also modify adjectives and other adverbs,

Por outro lado:

Adpositions belong to a closed set of items that occur before (preposition) or after (postposition) a complement composed of a noun phrase, noun, pronoun, or clause that functions as a noun phrase, and that form a single structure with the complement to express its grammatical and semantic relation to another unit within a clause.

Assim, ainda que eu estranhe isso, me pareceria fiel à documentação classificar Além-1 como ADP aqui.

Para validar essa idéia, achei no corpus UD em inglês algo similar: a palavra "besides", quando modificando um nominal que a segue, assume a POS ADP (e rótulo case), enquanto quando modifica uma cláusula que a segue, assume a POS ADV (e rótulo advmod). Este é o comportamento que estou propondo para o "além de". O que acham, @claudiafreitas e @suemi-higuchi ?

arademaker commented 7 years ago

Correto @GPPassos, também achei estranho e por isso perguntei para a @claudiafreitas. Mas ela não deu atenção a esta parte da sentença.

arademaker commented 7 years ago

ficamos assim

─┮
 │   ╭─┮ Além ADP case
 │   │ ╰─╼ de ADP fixed
 │   ┢─╼ os DET det
 │ ╭─┾ ramos NOUN obl
 │ │ ┡─╼ mencionados ADJ amod
 │ │ ╰─╼ , PUNCT punct
 │ │ ╭─╼ sua DET det
 │ ┢─┾ atividade NOUN nsubj
 │ │ ╰─╼ empresarial ADJ amod
 ╰─┾ abrangeu VERB root
   │ ╭─╼ a DET det
   ┡─┾ indústria NOUN obj
   │ ┡─┮ açucareira ADJ amod
   │ │ │ ╭─╼ , PUNCT punct
   │ │ │ ┢─╼ de ADP case
   │ │ ┡─┾ cal NOUN conj
   │ │ │ │ ╭─╼ e CCONJ cc
   │ │ │ ╰─┶ cálcio NOUN conj
   │ │ │ ╭─╼ , PUNCT punct
   │ │ │ ┢─╼ de ADP case
   │ │ ┡─┶ manteiga NOUN conj
   │ │ │ ╭─╼ , PUNCT punct
   │ │ │ ┢─╼ de ADP case
   │ │ ╰─┾ artefatos NOUN conj
   │ │   │ ╭─╼ de ADP case
   │ │   ╰─┶ ferro NOUN nmod
   │ │ ╭─╼ , PUNCT punct
   │ │ ┢─╼ a DET det
   │ ┡─┾ distribuição NOUN conj
   │ │ │ ╭─╼ de ADP case
   │ │ ╰─┶ óleos NOUN nmod
   │ │ ╭─╼ , PUNCT punct
   │ ┡─┶ seguros NOUN conj
   │ │ ╭─╼ e CCONJ cc
   │ ╰─┾ exportação NOUN conj
   │   │ ╭─╼ e CCONJ cc
   │   ╰─┶ importação NOUN conj
   ╰─╼ . PUNCT punct

se alguém discordar, reabrimos o issue

arademaker commented 7 years ago

Vide 02dfeddc