Closed suemi-higuchi closed 7 years ago
Aqui realmente o parser errou feio. Vamos ter que editar toda a análise, sem editor é chato mas não tem outra alternativa enquanto o @DanielSpecht não termina o editor.
Se @claudiafreitas achar errado, reabrimos este issue, mas corrigi sentença manualmente em 45863e42.
@arademaker , vi a sentença lá. A correção do verbo "rar" está ok, mas a coordenação em "a distribuição de óleos, seguros e exportação e importação" está bem mal, porque "seguros" e "exportação" dependem de "óleos" (31), mas está dependente de 12.
Não concordo, @claudiafreitas. A frase é
Além dos ramos mencionados, sua atividade empresarial abrangeu a indústria açucareira, de cal e cálcio, de manteiga, de artefatos de ferro, a distribuição de óleos, seguros e exportação e importação.
"seguros" e "exportação e importação" não são outras coisas a serem distribuídas para estarem em coordenação com "óleos".
("distribuição de seguros" seria até possível, mas bem estranho...)
Uma leitura é de que a atividade empresarial dele abrangeu:
Nessa leitura, o parser estaria correto em fazer "cal" (16), "manteiga" (21) e "artefatos" (24) dependerem de "açucareira" (13) (por coordenação), assim como "cálcio" (18) depender de "cal" (16). Do mesmo modo, o parser teria acertado em fazer "seguros" (33) e "exportação" (35) dependerem de "indústria" (12) .
Note também que essa leitura é a sugerida pelo uso das vírgulas e do "e" na frase (nela, o uso das vírgulas e conjunções está consistente).
certo. entao "seguros" e "exportação e importação" devem ser dependentes de indústria. ok
Em 3 de agosto de 2017 15:04, Guilherme Passos notifications@github.com escreveu:
Não concordo, @claudiafreitas https://github.com/claudiafreitas. A frase é Além dos ramos mencionados, sua atividade empresarial abrangeu a indústria açucareira, de cal e cálcio, de manteiga, de artefatos de ferro, a distribuição de óleos, seguros e exportação e importação. "seguros" e "exportação e importação" não são outras coisas a serem distribuídas para estarem em coordenação com "óleos". ("distribuição de seguros" seria até possível, mas bem estranho...)
Uma leitura é de que a atividade empresarial dele abrangeu
- indústrias:
- açucareira
- cal e cálcio
- manteiga
- artefatos de ferro
- distribuição de óleos
- seguros
- exportação e importação
Nessa leitura, o parser estaria correto em fazer "cal" (16), "manteiga" (21) e "artefatos" (24) dependerem de "açucareira" (13) (por coordenação), assim como "cálcio" (18) depender de "cal" (16). Do mesmo modo, o parser teria acertado em fazer "seguros" (33) e "exportação" (35) dependerem de "indústria" (12) .
Note também que essa leitura é a sugerida pelo uso das vírgulas e do "e" na frase (nela, o uso das vírgulas e conjunções está consistente).
— You are receiving this because you were mentioned. Reply to this email directly, view it on GitHub https://github.com/cpdoc/dhbb-nlp/issues/5#issuecomment-320045932, or mute the thread https://github.com/notifications/unsubscribe-auth/AKT3m6i7see_yNOCqb7SroanBRyXbuGUks5sUgu8gaJpZM4OqB-Q .
Também estou com dúvidas após as últimas mudanças, que gerou isto:
obl(Além-1, ramos-4)
Além-1
é uma function word, enquanto ramos-4
é uma content word, de forma que não parece correto para UD o primeiro ser pai da segunda.
Outro problema é termos mark(ramos-4, de-2)
, já que mark
introduz uma cláusula subordinada finita, sendo que aqui não temos uma cláusula, mas um nominal.
O que parece estar mais de acordo é que ramos-4
dependa diretamente da raiz (abrangeu-10
) pela relação de obl
, assim como de-3
continue sendo case
de ramos-4
, como o parser havia marcado.
O que gera dúvida é quem é o head de Além-1
... Se ramos-4
depende diretamente da raiz, faz sentido que Além-1
dependa diretamente de ramos-4
.
Isso me sugere que "além de" poderia ser marcado como uma fixed
expression (assim como because of
em inglês, no exemplo da documentação). Daí poderemos ter:
case(ramos-4,Além-1)
fixed(Além-1,de-2)
Por fim, como "além (de)" estaria modificando um nome (ramos-4
), a POS ser ADV
é estranho, afinal:
Adverbs are words that typically modify verbs for such categories as time, place, direction or manner. They may also modify adjectives and other adverbs,
Por outro lado:
Adpositions belong to a closed set of items that occur before (preposition) or after (postposition) a complement composed of a noun phrase, noun, pronoun, or clause that functions as a noun phrase, and that form a single structure with the complement to express its grammatical and semantic relation to another unit within a clause.
Assim, ainda que eu estranhe isso, me pareceria fiel à documentação classificar Além-1
como ADP
aqui.
Para validar essa idéia, achei no corpus UD em inglês algo similar: a palavra "besides", quando modificando um nominal que a segue, assume a POS ADP
(e rótulo case
), enquanto quando modifica uma cláusula que a segue, assume a POS ADV
(e rótulo advmod
). Este é o comportamento que estou propondo para o "além de".
O que acham, @claudiafreitas e @suemi-higuchi ?
Correto @GPPassos, também achei estranho e por isso perguntei para a @claudiafreitas. Mas ela não deu atenção a esta parte da sentença.
ficamos assim
─┮
│ ╭─┮ Além ADP case
│ │ ╰─╼ de ADP fixed
│ ┢─╼ os DET det
│ ╭─┾ ramos NOUN obl
│ │ ┡─╼ mencionados ADJ amod
│ │ ╰─╼ , PUNCT punct
│ │ ╭─╼ sua DET det
│ ┢─┾ atividade NOUN nsubj
│ │ ╰─╼ empresarial ADJ amod
╰─┾ abrangeu VERB root
│ ╭─╼ a DET det
┡─┾ indústria NOUN obj
│ ┡─┮ açucareira ADJ amod
│ │ │ ╭─╼ , PUNCT punct
│ │ │ ┢─╼ de ADP case
│ │ ┡─┾ cal NOUN conj
│ │ │ │ ╭─╼ e CCONJ cc
│ │ │ ╰─┶ cálcio NOUN conj
│ │ │ ╭─╼ , PUNCT punct
│ │ │ ┢─╼ de ADP case
│ │ ┡─┶ manteiga NOUN conj
│ │ │ ╭─╼ , PUNCT punct
│ │ │ ┢─╼ de ADP case
│ │ ╰─┾ artefatos NOUN conj
│ │ │ ╭─╼ de ADP case
│ │ ╰─┶ ferro NOUN nmod
│ │ ╭─╼ , PUNCT punct
│ │ ┢─╼ a DET det
│ ┡─┾ distribuição NOUN conj
│ │ │ ╭─╼ de ADP case
│ │ ╰─┶ óleos NOUN nmod
│ │ ╭─╼ , PUNCT punct
│ ┡─┶ seguros NOUN conj
│ │ ╭─╼ e CCONJ cc
│ ╰─┾ exportação NOUN conj
│ │ ╭─╼ e CCONJ cc
│ ╰─┶ importação NOUN conj
╰─╼ . PUNCT punct
se alguém discordar, reabrimos o issue
Vide 02dfeddc
No 6.conllu, sent_id=20, ele transformou um noun em verb, que ficou sendo o root: