CompLin / nheengatu

Tools and resources for the computational processing of Nheengatu (Modern Tupi)
7 stars 1 forks source link

xcomp ou ccomp? #207

Open leoalenc opened 1 year ago

leoalenc commented 1 year ago

A tarefa sobre Casasnovas2006:5:4:52 foi suscitada por ocasião de #512.

# sent_id = Avila2021:0:0:213 # text = Ape paá umaã yuí-itá upupuri, ape unheẽ tayera-itá supé: ― Pemaã nhaã-itá upupuri waá-itá, pesú peyuuka, pemixiri, yasaã arama sa puranga yambaú arã aintá. # text_eng = Then he saw the frogs jumping, then he said to his daughters: ― Look at those that are jumping, go get them and roast them, so we can prove if they are good for us to eat. # text_por = Então ele viu as rãs saltitando, aí disse para suas filhas: ― Olhem aquelas que estão pulando, vão pegar e assem, para provarmos se elas são boas para nós comermos. # text_source = Leetra Indígena. n. 17, 83, adap. # text_orig = Ape paá umaã yuí-itá upupuri, ape unheẽ tayera-itá supé: ― Pemaã nhaã-itá upupuri waá-itá, pesú peyuuka, pemixiri, yasaã arama sa puranga yambaú arã aintá

leoalenc commented 1 year ago

Se o mesmo verbo de percepção V1, como sendú e maã, ocorre nas molduras NP V1 NP e NP V1 NP V2 , então V2 realiza xcomp, se o objeto de V1 é o sujeito de V2. Podemos entender a segunda moldura como fusão de duas estruturas:

Vejo todos nós.

Nós estamos tristes.

Vejo todos nós tristes.

Veja este exemplo:

# sent_id = Amorim1928:21:206:1206 # text = Yepé kurumiwasú nhaã mira-itá suiwara unheẽ paá: — Amaã panhẽ yandé sasiára, maã taá yarikú? # text_eng = One of the young men among these people, they say, said: — I see us all sad, what do we have? # text_por = Um dos moços dentre essa gente, contam, disse: — Vejo todos nós tristes, que temos nós? # text_source = p. 363, No. 206-207 # text_orig = Iepé kurumiuasu nhaa miraetá suhiuara onheen paa: — Xamaan upanhe iandé sasyara, maa taa iareku? # text_sec = Amaã panhẽ yandé sasiára, maã taá yarikú? # text_por_sec = Vejo todos nós tristes, o que temos nós? # text_sec_source = Avila (2021) # text_por_sec_source = Avila (2021) # text_annotator = LFdeA

1   Yepé    yepé    DET ART Definite=Ind|PronType=Art   2   det _   TokenRange=0:4
2   kurumiwasú  kurumiwasú  NOUN    N   Number=Sing 6   nsubj   _   TokenRange=5:15
3   nhaã    nhaã    DET DEMS    Deixis=Remt|Number=Sing|PronType=Dem    4   det _   TokenRange=16:20
4   mira-itá    mira    NOUN    N   Number=Plur 2   nmod    _   TokenRange=21:29
5   suiwara suiwara ADP ADP AdpType=Post    4   case    _   TokenRange=30:37
6   unheẽ   nheẽ    VERB    V   Person=3|VerbForm=Fin   0   root    _   TokenRange=38:43
7   paá paá PART    RPRT    Evident=Nfh|PartType=Mod    6   advmod  _   SpaceAfter=No|TokenRange=44:47
8   :   :   PUNCT   PUNCT   _   10  punct   _   TokenRange=47:48
9   —   —   PUNCT   PUNCT   _   10  punct   _   TokenRange=48:49
10  Amaã    maã VERB    V   Number=Sing|Person=1|VerbForm=Fin   6   ccomp   _   TokenRange=50:54
11  panhẽ   panhẽ   DET TOT PronType=Tot    12  det _   TokenRange=55:60
12  yandé   yandé   PRON    PRON    Number=Plur|Person=1|PronType=Prs   10  obj _   TokenRange=61:66
13  sasiára sasiára ADJ A   _   10  xcomp   _   SpaceAfter=No|TokenRange=67:74
14  ,   ,   PUNCT   PUNCT   _   17  punct   _   TokenRange=74:75
15  maã maã PRON    INT PronType=Int    17  obj _   TokenRange=76:79
16  taá taá PART    CQ  PartType=Int    17  advmod  _   TokenRange=80:83
17  yarikú  rikú    VERB    V   Number=Plur|Person=1|VerbForm=Fin   10  parataxis   _   SpaceAfter=No|TokenRange=84:90
18  ?   ?   PUNCT   PUNCT   _   17  punct   _   SpaceAfter=No|TokenRange=90:91

Neste exemplo, porém, temos ccomp como complemento do verbo maã , pois este não está sendo usado puramente como verbo de percepção visual, mas como verbo epistêmico, parafraseável por 'constatar' etc:

# sent_id = Rodrigues1890:1-2-3:734:734 # text = Ariré, paá, i manha umaã aintá uikupukú usú aintá rakwera usikari arama aintá, usasáu ramé yepé igarapé ara rupí buyawasú umukuna aé. # text_eng = After that, they say, her mother saw them linger and followed them to look for them, when she was passing over a stream the big snake swallowed her. [Adapt. transl.] # text_por = Depois disso, dizem, a mãe dela vendo-os demorarem-se foi no encalço deles para procurá-los, quando passava por cima de um riacho a cobra-grande a engoliu. # text_source = p. 124-5 # text_orig = Ariré, paá, i manha u maan aitá u icopocó u çu aetá racuera u cecare arama aetá, uçaçau ramé yepé igarapé ara rupi boiuaçu u mucuma aé. # text_sec = Ariré paá i manha umaã aintá uikupukú, usú aintá rakakwera usikari arama aintá. # text_por_sec = Depois, dizem que sua mãe viu que eles demoravam, foi atrás deles para procurá-los. # text_sec_source = Avila (2021) # text_por_sec_source = Avila (2021) # text_annotator = LFdeA

1   Ariré   ariré   ADV ADVT    AdvType=Tim 7   advmod  _   SpaceAfter=No|TokenRange=0:5
2   ,   ,   PUNCT   PUNCT   _   3   punct   _   TokenRange=5:6
3   paá paá PART    RPRT    Evident=Nfh|PartType=Mod    7   advmod  _   SpaceAfter=No|TokenRange=7:10
4   ,   ,   PUNCT   PUNCT   _   3   punct   _   TokenRange=10:11
5   i   i   PRON    PRON2   Case=Gen|Number=Sing|Person=3|Poss=Yes|PronType=Prs 6   nmod:poss   _   TokenRange=12:13
6   manha   manha   NOUN    N   Number=Sing 7   nsubj   _   TokenRange=14:19
7   umaã    maã VERB    V   Person=3|VerbForm=Fin   0   root    _   TokenRange=20:24
8   aintá   aintá   PRON    PRON    Number=Plur|Person=3|PronType=Prs   9   nsubj   _   TokenRange=25:30
9   uikupukú    ikupukú VERB    V   Person=3|VerbForm=Fin   7   ccomp   _   TokenRange=31:39
10  usú sú  VERB    V   Person=3|VerbForm=Fin   7   parataxis   _   TokenRange=40:43
11  aintá   aintá   PRON    PRON2   Case=Gen|Number=Plur|Person=3|PronType=Prs  10  obl _   TokenRange=44:49
12  rakwera rakwera ADP ADP AdpType=Post|Rel=Cont   11  case    _   TokenRange=50:57
13  usikari sikari  VERB    V   Person=3|VerbForm=Fin   10  advcl   _   TokenRange=58:65
14  arama   arama   SCONJ   SCONJ   _   13  mark    _   TokenRange=66:71
15  aintá   aintá   PRON    PRON    Number=Plur|Person=3|PronType=Prs   13  obj _   SpaceAfter=No|TokenRange=72:77
16  ,   ,   PUNCT   PUNCT   _   17  punct   _   TokenRange=77:78
17  usasáu  sasáu   VERB    V   Person=3|VerbForm=Fin   24  advcl   _   TokenRange=79:85
18  ramé    ramé    SCONJ   SCONJ   _   17  mark    _   TokenRange=86:90
19  yepé    yepé    DET ART Definite=Ind|PronType=Art   20  det _   TokenRange=91:95
20  igarapé igarapé NOUN    N   Number=Sing 21  nmod:poss   _   TokenRange=96:103
21  ara ara NOUN    N   Number=Sing 17  obl _   TokenRange=104:107
22  rupí    rupí    ADP ADP AdpType=Post    21  case    _   TokenRange=108:112
23  buyawasú    buya    NOUN    N   Degree=Aug|Number=Sing  24  nsubj   _   TokenRange=113:121
24  umukuna mukuna  VERB    V   Person=3|VerbForm=Fin   10  parataxis   _   TokenRange=122:129
25  aé  aé  PRON    PRON    Number=Sing|Person=3|PronType=Prs   24  obj _   SpaceAfter=No|TokenRange=130:132
26  .   .   PUNCT   PUNCT   _   7   punct   _   SpaceAfter=No|TokenRange=132:133

Temos a mesma situação em Magalhaes1876:2:6:49.

leoalenc commented 1 year ago

Verba dicendi: ccomp. Ver, por ex., Avila2021:0:0:18.

leoalenc commented 11 months ago

# sent_id = Amorim1928:12:50:50 # text = Mayawé supisawa rupí nhaã apigawa upurungitatiwa se irumu, wirandé remundú awá usikari se pusanga. # text_eng = As this man usually speaks to me truthfully, send someone to look for my medicine tomorrow. [...] # text_source = p. 258, No. 20 # title_orig = IAPINARI # text_orig = Maaiaué supisaua rupi nhaa apigaua opurungetá tŷua xe irumo, uirandé remundu auá osekare xe pusanga. [...] # text_annotator = LFdeA

leoalenc commented 1 month ago

@heliolbs , @dominickmaia e @juliana-gurgel , diversas issues atulamente abertas envolvem a relação sintática xcomp. Neste artigo trato dos verbos de controle e de alçamento em português sob a perspectiva do modelo computacional HPSG:

ALENCAR, L. F. de; RADEMAKER, A. Modelação da valência verbal numa gramática computacional do português no formalismo HPSG . Domínios de Lingu@gem, Uberlândia, v. 16, n. 4, p. 1339–1400, 2022. DOI: 10.14393/DL52-v16n4a2022-6. Disponível em: https://seer.ufu.br/index.php/dominiosdelinguagem/article/view/64132. Acesso em: 8 ago. 2024.

Verbos de alçamento sob a ótica da HPSG enquadram-se em dois grupos (Alencar e Rademaker, 2022, p. 1367-1368), que, no quadro de UD, especificamente no treebank do nheengatu, correspondem a estes dois grupos:

  1. Auxiliares com etiqueta AUX do conjunto UPOS, como putari em MooreFP1994:0:0:3 ou ikú em MooreFP1994:0:0:4. Trata-se de um conjunto limitado de verbos em lexicon.json com prefixo AUX de etiqueta do conjunto XPOS. Nos arquivos glossary.txt e glossary.json, os auxiliares estão assinalados por aux. Correspondem a verbos de alçamento sem predicado próprio, conforme Alencar e Rademaker (2022).
  2. Verbos plenos que governam um complemento oracional sem sujeito próprio, que é o sujeito da oração principal, como em Navarro2016:0:0:150. Na gramática gerativa transformacional, postula-se que o sujeito do verbo encaixado move-se (ou seja, sobe ou é alçado) para a posição de sujeito do verbo matriz. O papel temático desse argumento é conferido pelo verbo encaixado (Alencar e Rademaker, 2022, p. 1367).

# sent_id = MooreFP1994:0:0:3 # text = Ayuíri-putari se retama kití. # text_eng = I want to return to my land. # text_por = Quero voltar para a minha terra. # text_source = p. 105 # text_orig = [a-yuwíri putái]V' se-retãma kiti # text_annotator = LFdeA

1-2 Ayuíri-putari   _   _   _   _   _   _   _   TokenRange=0:13
1   Ayuíri  yuíri   VERB    V   Number=Sing|Person=1|VerbForm=Fin   0   root    _   _
2   putari  putari  AUX AUXN    Compound=Yes|VerbForm=Inf   1   aux _   _
3   se  se  PRON    PRON2   Case=Gen|Number=Sing|Person=1|Poss=Yes|PronType=Prs 4   nmod:poss   _   TokenRange=14:16
4   retama  tetama  NOUN    N   Number=Sing|Rel=Cont    1   obl _   TokenRange=17:23
5   kití    kití    ADP ADP AdpType=Post    4   case    _   SpaceAfter=No|TokenRange=24:28
6   .   .   PUNCT   PUNCT   _   1   punct   _   SpaceAfter=No|TokenRange=28:29

# sent_id = MooreFP1994:0:0:4 # text = Yandé yapurungitá yaikú nheengatú. # text_eng = We are talking Nheengatu. # text_por = Nós estamos falando nheengatu. # text_source = p. 105 # text_orig = yãndé [[ya-purĩngitá]V [ya-ikú]Aux yeʔẽngatú]VP # text_annotator = LFdeA # reviewer1 = JLG

1   Yandé   yandé   PRON    PRON    Number=Plur|Person=1|PronType=Prs   2   nsubj   _   TokenRange=0:5
2   yapurungitá purungitá   VERB    V   Number=Plur|Person=1|VerbForm=Fin   0   root    _   TokenRange=6:17
3   yaikú   ikú AUX AUXFS   Number=Plur|Person=1|VerbForm=Fin   2   aux _   TokenRange=18:23
4   nheengatú   nheengatú   NOUN    N   Number=Sing 2   obj _   SpaceAfter=No|TokenRange=24:33
5   .   .   PUNCT   PUNCT   _   2   punct   _   SpaceAfter=No|TokenRange=33:34

# sent_id = Navarro2016:0:0:150 # text = uyupirú ana uwatá garapá suí. # text_eng = He started walking from the port. # text_por = Ele começou a andar desde o porto. # text_source = Lesson 3, p. 24 # text_annotator = DMA # reviewer1 = LFdeA

1   Aé  aé  PRON    PRON    Number=Sing|Person=3|PronType=Prs   2   nsubj   _   TokenRange=0:2
2   uyupirú yupirú  VERB    V   Person=3|VerbForm=Fin   0   root    _   TokenRange=3:10
3   ana ana PART    PFV Aspect=Perf 2   advmod  _   TokenRange=11:14
4   uwatá   watá    VERB    V   Person=3|VerbForm=Fin   2   xcomp   _   TokenRange=15:20
5   garapá  garapá  NOUN    N   Number=Sing 4   obl _   TokenRange=21:27
6   suí suí ADP ADP AdpType=Post    5   case    _   SpaceAfter=No|TokenRange=28:31
7   .   .   PUNCT   PUNCT   _   2   punct   _   SpaceAfter=No|TokenRange=31:32

Verbos de alçamento podem envolver também o objeto da oração encaixada, como no caso de verbos causativos do tipo de fazer em português (Alencar e Rademaker, 2022, p. 1351). Esses verbos devem reger ccomp em nheengatu, uma vez que aparentemente inexiste distinção formal nessa língua entre as traduções das seguintes sentenças:

[...] deixem que eu fique só com o cabeça de vocês. [...] me deixem ficar só com o cabeça de vocês.

Veja:

# sent_id = Amorim1928:21:114:114 # text = Kuíri pasú ana sembiiwa kití, pexari ixé xapitá pe akanga irumu nhũ. # text_por = Agora vão já para a beirada, me deixem ficar só com o cabeça de vocês. # text_source = p. 355-369, No. 114 # text_orig = Kuyre pasu ana sembéyua ketŷ, pexeare ixé xapytá pe akanga yrumo nhu. # text_eng = TODO # text_orig_transcriber = Gabriela Lourenço Fernandes, Biblioteca Brasiliana Guita e José Mindlin # text_por_modernizer = Gabriela Lourenço Fernandes, Biblioteca Brasiliana Guita e José Mindlin # text_annotator = LFdeA # inputline = Kuíri pasú/=typo:c|pesú ana sembiiwa/ncont kití, pexari ixé xapitá pe/pron2 akanga irumu/adp nhũ.

Verbos de controle subclassificam-se conforme a função sintática controladora do verbo da oração matriz: sujeito, objeto direto etc. (Alencar e Rademaker, 2022, p. 1373).

Em UD, em todos esse casos tem-se xcomp.

O xcomp distingue-se do ccomp pela seguintes características:

  1. O xcomp não possui um sujeito próprio realizado por um pronome ou nome governado pelo verbo encaixado via nsubj e esse sujeito implícito não é passível de explicitação, salvo raras exceções discutidas em Alencar (2004).
  2. O sujeito implícito do xcomp é controlado por argumento do verbo matriz ou representa sujeito (por exemplo, em Navarro2016:0:0:401, Avila2021:0:0:40 e Avila2021:0:0:45) ou objeto do verbo matriz que se encontra nessa posição devido a movimento da posição de sujeito do verbo encaixado.
  3. Em línguas como inglês e alemão, o verbo do xcomp é não finito. Nessas línguas bem como no nheengatu, palavras de outras classes, como ADJ, podem constituir xcomp. Em nheengatu, o verbo do xcomp duplica a flexão do verbo matriz, algo que ocorre também com auxiliares não incorporados como ikú (v. supra).
  4. O ccomp é uma oração plena com sujeito próprio, que, em línguas do tipo pro-drop como português e nheengatu, pode ser omitido. Havendo coincidência entre sujeito do verbo encaixado e sujeito ou objeto do verbo matriz, no ccomp essa ocasional é fortuita:

Maryi said [CCOMP that shej loves him]. (i=j ou i≠ j)

leoalenc commented 1 month ago

O verbo putari, quando não incorporado, não é auxiliar, regendo obj ou xcomp:

# sent_id = Navarro2016:0:0:401 # text = Ixé aputari amemũi musapiri pirá yambaú arama. # text_eng = I want to cook three fish for us to eat. # text_por = Eu quero cozinhar três peixes para nós comermos. # text_annotator = LFdeA

1   Ixé ixé PRON    PRON    Number=Sing|Person=1|PronType=Prs   2   nsubj   _   TokenRange=0:3
2   aputari putari  VERB    V   Number=Sing|Person=1|VerbForm=Fin   0   root    _   TokenRange=4:11
3   amemũi  memũi   VERB    V   Number=Sing|Person=1|VerbForm=Fin   2   xcomp   _   TokenRange=12:18
4   musapiri    musapiri    NUM CARD    NumType=Card    5   nummod  _   TokenRange=19:27
5   pirá    pirá    NOUN    N   Number=Sing 3   obj _   TokenRange=28:32
6   yambaú  mbaú    VERB    V   Number=Plur|Person=1|VerbForm=Fin   3   advcl   _   TokenRange=33:39
7   arama   arama   SCONJ   SCONJ   _   6   mark    _   SpaceAfter=No|TokenRange=40:45
8   .   .   PUNCT   PUNCT   _   2   punct   _   SpaceAfter=No|TokenRange=45:46
leoalenc commented 1 month ago

Neste exemplo, parece que deveríamos ter ccomp:

# sent_id = Avila2021:0:0:53 # text = Ne paya umundú será reruri maã? # text_eng = Did your father ask you to bring something? # text_por = Seu pai mandou você trazer algo? # text_source = Magalhães, 88, adap. # text_annotator = LFdeA

1   Ne  ne  PRON    PRON2   Case=Gen|Number=Sing|Person=2|Poss=Yes|PronType=Prs 2   nmod:poss   _   TokenRange=0:2
2   paya    paya    NOUN    N   Number=Sing 3   nsubj   _   TokenRange=3:7
3   umundú  mundú   VERB    V   Person=3|VerbForm=Fin   0   root    _   TokenRange=8:14
4   será    será    PART    PQ  PartType=Int    3   advmod  _   TokenRange=15:19
5   reruri  ruri    VERB    V   Number=Sing|Person=2|VerbForm=Fin   3   xcomp   _   TokenRange=20:26
6   maã maã PRON    IND PronType=Ind    5   obj _   SpaceAfter=No|TokenRange=27:30
7   ?   ?   PUNCT   PUNCT   _   3   punct   _   SpaceAfter=No|TokenRange=30:31
leoalenc commented 1 month ago

Bom exemplo de xcomp em estrutura de alçamento para sujeito: Avila2021:0:0:97.

leoalenc commented 1 month ago

Neste exemplo, tanto o sujeito quanto o objeto do verbo matriz umungitá diferem do sujeito do adjetivo encaixado yakwáu , que, por isso, não pode constituirxcomp:

# sent_id = Avila2021:0:0:361 # text = Iauhixa, ne awa murutinga ti umungitá ne piá indé yakwáu arama. # text_eng = Iauhixa, your white hair does not advise your heart to be serious. # text_por = Iauhixa, teu cabelo branco não aconselha teu coração para seres sisudo. # text_source = Amorim, 92, adap. # text_prim = Iauhixa, ne áua murutinga ntyo omungetá ne pŷa ndé iakuau arama. # text_prim_transcriber = Gabriela Lourenço Fernandes, Biblioteca Brasiliana Guita e José Mindlin # text_annotator = LFdeA # reviewer1 = JLG # reviewer2 = DMA

1   Iauhixa iauhixa PROPN   PROPN   _   7   vocative    _   SpaceAfter=No|TokenRange=0:7
2   ,   ,   PUNCT   PUNCT   _   1   punct   _   TokenRange=7:8
3   ne  ne  PRON    PRON2   Case=Gen|Number=Sing|Person=2|Poss=Yes|PronType=Prs 4   nmod:poss   _   TokenRange=9:11
4   awa awa NOUN    N   Number=Sing 7   nsubj   _   TokenRange=12:15
5   murutinga   murutinga   ADJ A   _   4   amod    _   TokenRange=16:25
6   ti  ti  PART    NEG PartType=Neg|Polarity=Neg   7   advmod  _   TokenRange=26:28
7   umungitá    mungitá VERB    V   Person=3|VerbForm=Fin   0   root    _   TokenRange=29:37
8   ne  ne  PRON    PRON2   Case=Gen|Number=Sing|Person=2|Poss=Yes|PronType=Prs 9   nmod:poss   _   TokenRange=38:40
9   piá piá NOUN    N   Number=Sing 7   obj _   TokenRange=41:44
10  indé    indé    PRON    PRON    Number=Sing|Person=2|PronType=Prs   11  nsubj   _   TokenRange=45:49
11  yakwáu  yakwáu  ADJ A   _   7   advcl   _   TokenRange=50:56
12  arama   arama   SCONJ   SCONJ   _   11  mark    _   SpaceAfter=No|TokenRange=57:62
13  .   .   PUNCT   PUNCT   _   7   punct   _   SpaceAfter=No|TokenRange=62:63