UniversalDependencies / UD_Portuguese-Bosque

This Universal Dependencies (UD) Portuguese treebank.
Other
49 stars 11 forks source link

ccomp vs xcomp #186

Open GPPassos opened 7 years ago

GPPassos commented 7 years ago

I've found some examples of sentences with verbs annotated with xcomp where it seems to me it should be ccomp and vice-versa.

# text = Eles se dizem oposição, mas ainda não informaram o que vão combater.
# source = CETENFolha n=1 cad=Opinião sec=opi sem=94a
# sent_id = CF1-7
# id = 6
# d2d = punct(dizem,,) -> punct(informaram,,)  #106
# d2d = cc(dizem,mas) -> cc(informaram,mas)  #106
1   Eles    eles    PRON    PERS|M|3P|NOM|@SUBJ>    Case=Nom|Gender=Masc|Number=Plur|Person=3|PronType=Prs  3   nsubj   _   _
2   se  se  PRON    PERS|M|3P|ACC|@ACC>-PASS    Case=Acc|Gender=Masc|Number=Plur|Person=3|PronType=Prs  3   expl    _   ChangedBy=Issue135
3   dizem   dizer   VERB    <first-cjt>|<mv>|<se-passive>|V|PR|3P|IND|@FS-STA   Mood=Ind|Number=Plur|Person=3|Tense=Pres|VerbForm=Fin   0   root    _   _
4   oposição    oposição    NOUN    <np-idf>|N|F|S|@<OC Gender=Fem|Number=Sing  3   xcomp   _   ChangedBy=Issue165|SpaceAfter=No
5   ,   ,   PUNCT   PU|@PU  _   9   punct   _   d2d:#106
6   mas mas CCONJ   <co-fcl>|KC|@CO _   9   cc  _   d2d:#106
7   ainda   ainda   ADV ADV|@>A _   8   advmod  _   _
8   não não ADV _   Polarity=Neg    9   advmod  _   _
9   informaram  informar    VERB    <cjt>|<mv>|V|PS/MQP|3P|IND|@FS-STA  Mood=Ind|Number=Plur|Person=3|VerbForm=Fin  3   conj    _   _
10  o   o   PRON    _   Gender=Masc|Number=Sing 11  det _   _
11  que que PRON    <interr>|INDP|M|S|@ACC> Gender=Masc|Number=Sing|PronType=Int    13  obj _   _
12  vão ir  AUX <aux>|V|PR|3P|IND|@FS-<ACC  Mood=Ind|Number=Plur|Person=3|Tense=Pres|VerbForm=Fin   13  aux _   _
13  combater    combater    VERB    <mv>|V|INF|@ICL-AUX<    VerbForm=Inf    9   ccomp   _   ChangedBy=Issue165|SpaceAfter=No
14  .   .   PUNCT   PU|@PU  _   3   punct   _   _

From the context*, the subject of "combater" is the same as of "informaram" ("eles", PT), and there's no other interpretation available (as far as I can see). So this should be tagged as xcomp, not ccomp.

On the other hand, we have:

# text = BRASÍLIA Pesquisa Datafolha publicada hoje revela um dado supreendente: recusando uma postura radical, a esmagadora maioria (77%) dos eleitores quer o PT participando do Governo Fernando Henrique Cardoso.
# source = CETENFolha n=1 cad=Opinião sec=opi sem=94a &W
# sent_id = CF1-3
# id = 2
1   BRASÍLIA    Brasília    PROPN   PROP|F|S|@ADVL> Gender=Fem|Number=Sing  6   advmod  _   _
2   Pesquisa    Pesquisa    PROPN   _   Gender=Fem|Number=Sing  6   nsubj   _   ChangedBy=Issue119|MWE=Pesquisa_Datafolha|MWEPOS=PROPN
3   Datafolha   Datafolha   PROPN   _   Number=Sing 2   flat:name   _   ChangedBy=Issue119
4   publicada   publicar    VERB    <mv>|V|PCP|F|S|@ICL-N<  Gender=Fem|Number=Sing|VerbForm=Part    2   acl _   _
5   hoje    hoje    ADV ADV|@<ADVL  _   4   advmod  _   _
6   revela  revelar VERB    <mv>|V|PR|3S|IND|@FS-STA    Mood=Ind|Number=Sing|Person=3|Tense=Pres|VerbForm=Fin   0   root    _   _
7   um  um  DET <arti>|ART|M|S|@>N  Definite=Ind|Gender=Masc|Number=Sing|PronType=Art   8   det _   _
8   dado    dado    NOUN    <np-idf>|N|M|S|@<ACC    Gender=Masc|Number=Sing 6   obj _   _
9   supreendente    surpreendente   ADJ ADJ|M|S|@N< Gender=Masc|Number=Sing 8   amod    _   ChangedBy=Issue165|SpaceAfter=No
10  :   :   PUNCT   PU|@PU  _   6   punct   _   _
11  recusando   recusar VERB    <mv>|V|GER|@ICL-ADVL>   VerbForm=Ger    26  advcl   _   _
12  uma um  DET <arti>|ART|F|S|@>N  Definite=Ind|Gender=Fem|Number=Sing|PronType=Art    13  det _   _
13  postura postura NOUN    <np-idf>|N|F|S|@<ACC    Gender=Fem|Number=Sing  11  obj _   _
14  radical radical ADJ ADJ|F|S|@N< Gender=Fem|Number=Sing  13  amod    _   ChangedBy=Issue165|SpaceAfter=No
15  ,   ,   PUNCT   PU|@PU  _   11  punct   _   _
16  a   o   DET <artd>|ART|F|S|@>N  Definite=Def|Gender=Fem|Number=Sing|PronType=Art    18  det _   _
17  esmagadora  esmagador   ADJ ADJ|F|S|@>N Gender=Fem|Number=Sing  18  amod    _   _
18  maioria maioria NOUN    <np-def>|N|F|S|@SUBJ>   Gender=Fem|Number=Sing  26  nsubj   _   _
19  (   (   PUNCT   PU|@PU  _   21  punct   _   ChangedBy=Issue165|SpaceAfter=No
20  77  77  NUM <card>|NUM|M|P|@>N  NumType=Card    21  nummod  _   ChangedBy=Issue165|ChangedBy=Issue168|SpaceAfter=No
21  %   %   SYM <np-def>|N|M|P|@N<PRED  Gender=Masc|Number=Plur 18  appos   _   ChangedBy=Issue165|SpaceAfter=No
22  )   )   PUNCT   PU|@PU  _   21  punct   _   _
23-24   dos _   _   _   _   _   _   _   _
23  de  de  ADP <sam->|PRP|@N<  _   25  case    _   _
24  os  o   DET <-sam>|<artd>|ART|M|P|@>N   Definite=Def|Gender=Masc|Number=Plur|PronType=Art   25  det _   _
25  eleitores   eleitor NOUN    <np-def>|N|M|P|@P<  Gender=Masc|Number=Plur 18  nmod    _   _
26  quer    querer  VERB    <mv>|V|PR|3S|IND|@FS-N<PRED Mood=Ind|Number=Sing|Person=3|Tense=Pres|VerbForm=Fin   8   acl:relcl   _   _
27  o   o   DET <artd>|ART|M|S|@>N  Definite=Def|Gender=Masc|Number=Sing|PronType=Art   28  det _   _
28  PT  PT  PROPN   PROP|M|S|@<ACC  Gender=Masc|Number=Sing 26  obj _   _
29  participando    participar  VERB    <mv>|V|GER|@ICL-<OC VerbForm=Ger    26  xcomp   _   _
30-31   do  _   _   _   _   _   _   _   _
30  de  de  ADP <sam->|PRP|@<PIV    _   32  case    _   _
31  o   o   DET <-sam>|<artd>|ART|M|S|@>N   Definite=Def|Gender=Masc|Number=Sing|PronType=Art   32  det _   _
32  Governo governo NOUN    <prop>|<np-def>|N|M|S|@P<   Gender=Masc|Number=Sing 29  nmod    _   _
33  Fernando    Fernando    PROPN   _   Gender=Masc|Number=Sing 32  nmod    _   ChangedBy=Issue119|MWE=Fernando_Henrique_Cardoso|MWEPOS=PROPN
34  Henrique    Henrique    PROPN   _   Number=Sing 33  flat:name   _   ChangedBy=Issue119
35  Cardoso Cardoso PROPN   _   Number=Sing 33  flat:name   _   ChangedBy=Issue119|ChangedBy=Issue165|SpaceAfter=No
36  .   .   PUNCT   PU|@PU  _   6   punct   _   _

Here the subject of "quer" is "eleitores", where subject of "participando" is "PT". Therefore, "participando" should be tagged as ccomp.

* CF1:

PT no governo BRASÍLIA Pesquisa Datafolha publicada hoje revela um dado supreendente: recusando uma postura radical, a esmagadora maioria (77%) dos eleitores quer o PT participando do Governo Fernando Henrique Cardoso. Tem sentido -- aliás, muitíssimo sentido. Muito mais do que nos tempos na ditadura, a solidez do PT está, agora, ameaçada. Nem Lula nem o partido ainda encontraram um discurso para se diferenciar. Eles se dizem oposição, mas ainda não informaram o que vão combater. Muitas das prioridades do novo governo coincidem com as prioridades do PT.

From the documentation of UD: ccomp guidelines:

if the subject of the clausal complement is controlled (that is, must be the same as the higher subject or object, with no other possible interpretation) the appropriate relation is xcomp.

xcomp guidelines:

The subject must be necessarily inherited from a fixed position in the higher clause. That is, there should be no available interpretation where the subject of the lower clause may be distinct from the specified role of the upper clause. In cases where the missing subject may or must be distinct from a fixed role in the higher clause, ccomp should be used instead, as below.

vcvpaiva commented 7 years ago

hmm, do you have a typo in for ccomp:

if the subject of the clausal complement is controlled (that is, must be the same as the higher subject or object, with no other possible interpretation) the appropriate relation is xcomp. ???

GPPassos commented 7 years ago

Oh, sorry, I wasn't clear. No typo! The first quote was from ccomp guidelines; the second from xcomp guidelines.

claudiafreitas commented 7 years ago

Para usar o xcomp, a ideia é de impossibilidade de outra leitura/estrutura. A primeira frase poderia ser Eles se dizem oposição, mas ainda não informaram o que os filiados vão combater. --> ou seja, é possível a existência de um outro sujeito. è o que eles dizem com

That is, there should be no available interpretation where the subject of the lower clause may be distinct from the specified role of the upper clause

Mas em

O conselho fiscal entende que os acionistas não devem mais «suportar investir dinheiro bom em companhia sem condições de se reerguer».

--> o único sujeito possível do verbo investir é “acionistas”. Nao é possível outra estrutura. Por isso, nesse caso, xcomp.

Veja esse exemplo da documentação

The boss said to start digging --> ccomp (a relação entre said e start), porque poderia ser algo como “The boss said to him to start digging”. Mas a relação entre start e digging é de xcomp, porque essa é a única possibilidade de sujeito.

outro ponto do xcomp:

An open clausal complement (xcomp) of a verb or an adjective is a predicative or clausal complement without its own subject.

A oração não tem o seu próprio sujeito (ele é herdado de outra oração). "a esmagadora maioria dos eleitores quer o PT participando do Governo"

PT é OD de quer E sujeito de "participando", que não tem o seu próprio sujeito. É meio confuso mesmo, mas é assim que eu entendi essa diferença ccomp vs xcomp.

ou seja, a primeira frase está correta, mas a do "PT no governo" está errada, deveria ser xcomp

GPPassos commented 7 years ago

@claudiafreitas Interessante que concordo com toda a sua explicação em abstrato sobre xcomp e ccomp, mas não com sua classificação sobre combaterem

Nem Lula nem o partido ainda encontraram um discurso para se diferenciar. Eles se dizem oposição, mas ainda não informaram o que vão combater.

Se entendi bem, você disse que "combater" deveria ser ccomp, uma vez que quem combateria poderia ser alguém distinto de "eles" (Lula e o partido), como por exemplo os filiados. Mas se lemos aqui como os filiados, não estaríamos apenas dando essa interpretação em razão de pensarmos nos filiados como "o partido"? Acho que mesmo além disso, fico com a sensação de que o contexto limitaria a interpretação para uma de xcomp (já que se está falando de como o partido vai se posicionar politicamente).

claudiafreitas commented 7 years ago

@GPPassos , a questão do xcomp não tem a ver com possibilidade ou interpretação. Nao dá pra ter outro sujeito e pronto (sinceramente, nao sei realmente se não há exceções para esses casos, mas essa é a forma tratada pela teoria). Repara que na frase abaixo (xcomp)

The boss said to start digging.

simplesmente não dá pra ter um outro sujeito entre start/digging. OU seja, é menos uma questão de interpretação, e mais uma questão de "lógica" ou de contexto... Em

Eles se dizem oposição, mas ainda não informaram o que vão combater.

Poderíamos ter

Eles se dizem oposição, mas ainda não informaram o que (os outros) vão combater.

GPPassos commented 7 years ago

Ah, claro, é uma análise puramente sintática. Faz sentido. Obrigado!

arademaker commented 7 years ago

Eu não entendi @claudiafreitas

a questão do xcomp não tem a ver com possibilidade ou interpretação. Nao dá pra ter outro sujeito e pronto (sinceramente, nao sei realmente se não há exceções para esses casos, mas essa é a forma tratada pela teoria). Repara que na frase abaixo (xcomp)

arademaker commented 7 years ago

Ah ok , a thread é longa , vou ler com calma