UniversalDependencies / UD_Portuguese-Bosque

This Universal Dependencies (UD) Portuguese treebank.
Other
48 stars 11 forks source link

incorrect attachment of "que" functioning as mark of ccomp #396

Open leoalenc opened 2 years ago

leoalenc commented 2 years ago

@arademaker e @wellington36, na anotação do exemplo abaixo, que vincula-se como mark a suspensos, o que está incorreto, pois devia ligar-se a devem, que constitui o núcleo do ccomp regido por considerar.

Só recentemente e de uma forma restritiva, alguns tribunais começaram a considerar que os processos contra os jornalistas devem ser suspensos até que estejam decididos os processos contra aqueles, geralmente figuras públicas, de quem falaram. http://match.grew.fr/data/61c0bfffac7ca/9146.svg http://match.grew.fr/?corpus=UD_Portuguese-Bosque@dev&custom=61c0bfffac7ca

Detectei esse erro ao me deparar com a moldura valencial <VERB:act,ccomp:Ind>, que não parece possível no português padrão contemporâneo, pois indica oração subordinada no indicativo funcionando como ccomp sem intermediação de mark.

wellington36 commented 2 years ago

Ok, posso fazer a respectiva correção manual, mas é interresante verificar a existencia dessa moldura em outros casos e de outras molduras que não deveriam aparecer.

leoalenc commented 2 years ago

@wellington36 e @arademaker , comparem a anotação anterior, incorreta, com a anotação correta deste exemplo:

A equipe econômica considera que cedeu tudo o que podia durante a votação da emenda no primeiro turno.

http://match.grew.fr/data/61c0c475bc1d6/807.svg http://match.grew.fr/?corpus=UD_Portuguese-Bosque@dev&custom=61c0c475bc1d6

Vejam que o verbo considera rege, via ccomp, o verbo cedeu, que, por sua vez, rege que. No exemplo do meu comentário anterior, pelo contrário, considerar rege devem via ccomp, mas esse último não rege que.

leoalenc commented 2 years ago

Ok, posso fazer a respectiva correção manual, mas é interresante verificar a existencia dessa moldura em outros casos e de outras molduras que não deveriam aparecer.

Aqui estão as molduras com esse tipo de problema:

<VERB:act,ccomp:Ind>
<VERB:act,ccomp:Cnd>
<VERB:act,ccomp:Sub>
<VERB:act,nsubj,ccomp:Ind>
<VERB:act,nsubj,ccomp:Sub>
<VERB:act,nsubj,ccomp:Sub,xcomp:a+Inf>
<VERB:act,nsubj,ccomp:Ind,obj>
<VERB:act,ccomp:Ind,obj>
<VERB:act,ccomp:Ind,iobj>
<VERB:act,nsubj,ccomp:Ind,obj:a>
<VERB:act,ccomp:Ind,obj:a>
<VERB:act,ccomp:Sub,iobj>
<VERB:act,ccomp:Cnd,iobj>
<VERB:act,nsubj,ccomp:Ind,obj:para>
<VERB:pass,nsubj,ccomp:Cnd>
<VERB:act,nsubj,ccomp:Sub,obj>
<VERB:act,ccomp:Ind,expl>
<VERB:act,nsubj,ccomp:Cnd>
<VERB:act,nsubj,ccomp:Ind,obj:de>
<VERB:act,ccomp:Ind,obj:de>
<VERB:act,nsubj,ccomp:Ind,iobj>
<VERB:act,nsubj,ccomp:Ind,expl>
leoalenc commented 2 years ago

Esta issue parece ter relação com #383, pois, no exemplo que apontei , ocorre xcomp ao qual se liga o que que deveria estar ligado ao verbo ccomp de considerar.

arademaker commented 2 years ago

aind sobre o comentário inicial, me parece que processos não é sujeito da passiva, vou remover o :pass da relação, concorda @leoalenc ?

CP962-1> Só recentemente e de uma forma restritiva, alguns tribunais começaram a considerar que os processos contra os jornalistas devem ser suspensos até que estejam decididos os processos contra aqueles, geralmente figuras públicas, de quem falaram.

─┮  
 │                                   ╭─╼ Só ADV advmod 1 2  
 │                                 ╭─┾ recentemente ADV advmod 2 13  
 │                                 │ │ ╭─╼ e CCONJ cc 3 6  
 │                                 │ │ ├─╼ de ADP case 4 6  
 │                                 │ │ ├─╼ uma DET det 5 6  
 │                                 │ ├─┾ forma NOUN conj 6 2  
 │                                 │ │ ╰─╼ restritiva ADJ amod 7 6  
 │                                 │ ╰─╼ , PUNCT punct 8 2  
 │   ╭─╼ alguns DET det 9 10       │ 
 │ ╭─┶ tribunais NOUN nsubj 10 11  │ 
 ╰─┾ começaram VERB root 11 0      │ 
   │                               ├─╼ a SCONJ mark 12 13  
   ╰───────────────────────────────┾ considerar VERB xcomp 13 11  
                                   │ ╭─╼ que SCONJ mark 14 20  
                                   │ │ ╭─╼ os DET det 15 16  
                                   │ ├─┾ processos NOUN nsubj:pass 16 20  
                                   │ │ │ ╭─╼ contra ADP case 17 19  
                                   │ │ │ ├─╼ os DET det 18 19  
                                   │ │ ╰─┶ jornalistas NOUN nmod 19 16  
                                   ├─┾ devem VERB ccomp 20 13  
                                   │ │ ╭─╼ ser AUX aux:pass 21 22  
                                   │ ╰─┾ suspensos VERB xcomp 22 20  
                                   │   │ ╭─╼ até SCONJ mark 23 26  
                                   │   │ ├─╼ que SCONJ mark 24 26  
                                   │   │ ├─╼ estejam AUX cop 25 26  
                                   │   ╰─┾ decididos ADJ advcl 26 22  
                                   │     │ ╭─╼ os DET det 27 28  
                                   │     ╰─┾ processos NOUN nsubj 28 26  
                                   │       │ ╭─╼ contra ADP case 29 30  
                                   │       ╰─┾ aqueles PRON det 30 28  
                                   │         │ ╭─╼ , PUNCT punct 31 33  
                                   │         │ ├─╼ geralmente ADV advmod 32 33  
                                   │         ├─┾ figuras NOUN nmod 33 30  
                                   │         │ ├─╼ públicas ADJ amod 34 33  
                                   │         │ ╰─╼ , PUNCT punct 35 33  
                                   │         │   ╭─╼ de ADP case 36 37  
                                   │         │ ╭─┶ quem PRON obj 37 38  
                                   │         ╰─┶ falaram VERB acl:relcl 38 30  
                                   ╰─╼ . PUNCT punct 39 13  
arademaker commented 2 years ago

@leoalenc estou tentando entender sua lista acima de molduras suspeitas. A estrutura de dados que temos me parece confusa, mas consegui da moldura chegar em um exemplo:

>>> val['<VERB:act,ccomp:Ind>']
[ameaçar, dizer, informar, poder, ver, continuar, afirmar, ser, achar, conseguir, saber, acrescentar, conhecer, estar, verificar, considerar, explicar, garantir, confirmar, pensar, compreender, imaginar, atrair, concluir, acatar, ignorar, apostar, recordar, decidir, avaliar, perguntar, observar, avisar, perceber, enfraquecer, argumentar, supor, constatar, discriminar, sublinhar, automatizar]
>>> val['<VERB:act,ccomp:Ind>'][0]
ameaçar
>>> val['<VERB:act,ccomp:Ind>'][0].valences
[<VERB:act,nsubj,xcomp:Inf>, <VERB:act,nsubj,xcomp:Inf>, <VERB:act,nsubj,xcomp:Inf>, <VERB:act,nsubj,xcomp:Inf>, <VERB:act,nsubj,xcomp:Inf>, <VERB:act,nsubj,xcomp:Inf>, <VERB:act,xcomp:Inf>, <VERB:act,nsubj,xcomp:Inf>, <VERB:act,nsubj,xcomp:Inf>, <VERB:act,nsubj,xcomp:Inf>, <VERB:act,obj:de,xcomp:Inf>, <VERB:act,nsubj,ccomp:que+Ind>, <VERB:act,nsubj,xcomp:Inf>, <VERB:act,nsubj,xcomp:Inf>, <VERB:act,ccomp:Ind>, <VERB:act,xcomp:Inf>, <VERB:act,nsubj,obj>, <VERB:act,nsubj,xcomp:Inf>]
>>> val['<VERB:act,ccomp:Ind>'][0].valences[14].example
'Um grupo autodenominado «Combatentes pela Liberdade do Líbano» reivindicou ontem o rapto de um oficial da Força Aérea norte-americana e do seu filho, que desapareceram na Turquia, e ameaçou executá-los caso não seja libertado um dirigente do Hezbollah, revelou ontem em Ancara a agência Anatolia.'

E esta sentença esta analisada como:

CP663-3> Um grupo autodenominado «Combatentes pela Liberdade do Líbano» reivindicou ontem o rapto de um oficial da Força Aérea norte-americana e do seu filho, que desapareceram na Turquia, e ameaçou executá-los caso não seja libertado um dirigente do Hezbollah, revelou ontem em Ancara a agência Anatolia.

─┮  
 │     ╭─╼ Um DET det 1 2  
 │   ╭─┾ grupo NOUN nsubj 2 13  
 │   │ ╰─┮ autodenominado VERB acl 3 2  
 │   │   │ ╭─╼ « PUNCT punct 4 5  
 │   │   ╰─┾ Combatentes PROPN xcomp 5 3  
 │   │     │ ╭─╼ por ADP case 6 8  
 │   │     │ ├─╼ a DET det 7 8  
 │   │     ├─┶ Liberdade PROPN nmod 8 5  
 │   │     │ ╭─╼ de ADP case 9 11  
 │   │     │ ├─╼ o DET det 10 11  
 │   │     ├─┶ Líbano PROPN nmod 11 5  
 │   │     ╰─╼ » PUNCT punct 12 5  
 │ ╭─┾ reivindicou VERB ccomp 13 51  
 │ │ ├─╼ ontem ADV advmod 14 13  
 │ │ │ ╭─╼ o DET det 15 16  
 │ │ ├─┾ rapto NOUN obj 16 13  
 │ │ │ │ ╭─╼ de ADP case 17 19  
 │ │ │ │ ├─╼ um DET det 18 19  
 │ │ │ ╰─┾ oficial NOUN nmod 19 16  
 │ │ │   │ ╭─╼ de ADP case 20 22  
 │ │ │   │ ├─╼ a DET det 21 22  
 │ │ │   ├─┾ Força PROPN nmod 22 19  
 │ │ │   │ ├─╼ Aérea PROPN flat:name 23 22  
 │ │ │   │ ╰─╼ norte-americana ADJ amod 24 22  
 │ │ │   │ ╭─╼ e CCONJ cc 25 29  
 │ │ │   │ ├─╼ de ADP case 26 29  
 │ │ │   │ ├─╼ o DET det 27 29  
 │ │ │   │ ├─╼ seu DET det 28 29  
 │ │ │   ├─┾ filho NOUN conj 29 19  
 │ │ │   │ ╰─╼ , PUNCT punct 30 29  
 │ │ │   │ ╭─╼ que PRON nsubj 31 32  
 │ │ │   ╰─┾ desapareceram VERB acl:relcl 32 19  
 │ │ │     │ ╭─╼ em ADP case 33 35  
 │ │ │     │ ├─╼ a DET det 34 35  
 │ │ │     ╰─┶ Turquia PROPN obl 35 32  
 │ │ │ ╭─╼ , PUNCT punct 36 38  
 │ │ │ ├─╼ e CCONJ cc 37 38  
 │ │ ╰─┾ ameaçou VERB conj 38 13  
 │ │   ├─┮ executá VERB ccomp 39 38  
 │ │   │ ╰─╼ los PRON obj 40 39  
 │ │   │ ╭─╼ caso SCONJ mark 41 44  
 │ │   │ ├─╼ não ADV advmod 42 44  
 │ │   │ ├─╼ seja AUX aux:pass 43 44  
 │ │   ╰─┾ libertado VERB advcl 44 38  
 │ │     │ ╭─╼ um DET det 45 46  
 │ │     ├─┾ dirigente NOUN nsubj:pass 46 44  
 │ │     │ │ ╭─╼ de ADP case 47 49  
 │ │     │ │ ├─╼ o DET det 48 49  
 │ │     │ ╰─┶ Hezbollah PROPN nmod 49 46  
 │ │     ╰─╼ , PUNCT punct 50 44  
 ╰─┾ revelou VERB root 51 0  
   ├─╼ ontem ADV advmod 52 51  
   │ ╭─╼ em ADP case 53 54  
   ├─┶ Ancara PROPN obl 54 51  
   │ ╭─╼ a DET det 55 56  
   ├─┾ agência PROPN nsubj 56 51  
   │ ╰─╼ Anatolia PROPN flat:name 57 56  
   ╰─╼ . PUNCT punct 58 51  

Qual mudança você propõe nesta análise?

leoalenc commented 2 years ago

@arademaker , o exemplo que você pegou está correto, no que se refere ao ccomp. Obrigado por me chamar a atenção para isso. Trata-se de ccomp que precede o verbo que o rege, numa estrutura de inversão do sujeito:

Um grupo reivindicou ontem o rapto, revelou a agência Anatolia. A agência Anatolia revelou que um grupo reivindicou ontem o rapto.

O exemplo CP962-1, que mencionei anteriormente, contudo, está anotado errado, conforme expliquei.

leoalenc commented 2 years ago

aind sobre o comentário inicial, me parece que processos não é sujeito da passiva, vou remover o :pass da relação, concorda @leoalenc ? ...

@arademaker , sim, não deveria ser nsubj:pass, é o sujeito do xcomp, inexpresso, que é passivo. Do jeito que está cria um problema para a extração da valência, entre outros problemas, pois temos um sujeito passivo de um verbo ativo.

leoalenc commented 2 years ago

E esta sentença esta analisada como:

CP663-3> Um grupo autodenominado «Combatentes pela Liberdade do Líbano» reivindicou ontem o rapto de um oficial da Força Aérea norte-americana e do seu filho, que desapareceram na Turquia, e ameaçou executá-los caso não seja libertado um dirigente do Hezbollah, revelou ontem em Ancara a agência Anatolia. ... Qual mudança você propõe nesta análise?

@arademaker , não vou ter tempo de verificar toda a árvore, mas detectei este erro na parte que você assinalou:

  1. executá VERB ccomp 39 38 ERRADO
  2. executá VERB xcomp 39 38 CERTO

O erro foi induzido provavelmente pela anotação errada da forma executá-los, pois essa forma verbal não é finita, como mostra a figura, mas infinitiva.

arademaker commented 2 years ago

usando dicionários de valencias:

>>> from valences import *
>>> import joblib
>>> val = joblib.load('bosque-master-20211210.pickle')
>>> val['<VERB:act,ccomp:Ind>']
[ameaçar, dizer, informar, poder, ver, continuar, afirmar, ser, achar, conseguir, ...]
>>> extract_example(val, '<VERB:act,ccomp:Ind>', 'poder')
['Finalmente, eis que podia revê-la e abraçá-la.']