CompLin / nheengatu

Tools and resources for the computational processing of Nheengatu (Modern Tupi)
7 stars 2 forks source link

"nẽ awá", "nẽ mayé" e "nẽ mairamé": MWEs? #633

Open leoalenc opened 3 weeks ago

leoalenc commented 3 weeks ago
leoalenc commented 3 weeks ago

Aparentemente, Avila (2021) considera todas as três expressões como locuções:

grep -Eahi "● nẽ (mairamé|mayé|awá)" avila-*.txt

● nẽ awá1 - ninguém // Reg. hist.: [Coudreau [neauá], 472; Tastevin [ne awa], 646] (v. em nẽ) ● nẽ awá2 - (e) nada! quem disse! (diz-se quando algo ou alguém que é procurado não é encontrado, quando faltam ao encontro ● nẽ mayé katú - de jeito nenhum, de forma alguma: Kwá "presidente" nẽ mayé katú usemu. - Esse presidente não sai de ● nẽ mayé katú - de jeito nenhum, de forma alguma: Kwá presidente nẽ mayé katú usemu. - Esse presidente não sai de ● nẽ mayé waá - nenhum (a): Yawé waá, kwá ara-itá rupí, nẽ mayé waá ukwá upurungitá ta nheenga, [...]. (Oliveira; ● nẽ mayé waá + [substantivo] + nungara / ou nẽ mayé waá nungara + [substantivo] / ou [substantivo] + nẽ mayé waá ● nẽ awá1 - ninguém // Reg. hist.: [Coudreau [neauá], 472; Tastevin [ne awa], 646]: Peé pitérupi paá ta umanduári ta upirari ● nẽ awá2 - (e) nada! quem disse! (diz-se quando algo ou alguém que é procurado não é encontrado, quando faltam ao encontro ● nẽ mairamé - em nenhum momento, nunca, jamais: [...], se ruixawa Kristu Jesus, resendú ixé, nẽ mairamé rexari ixé, ● nẽ mayé waá nungara - (de) nenhum tipo: [...] umbaá yapuderi yambaú yawaraté nẽ mayé waá nungara. (Payema, [...]

Avila (2021, p. 148) explica a função do símbolo ●:

Os verbetes podem ter adendos, que são seções que trazem formas complexas não lematizadas, lexias complexas, colocações, locuções, expressões, frases e utilizações específicas relacionadas ao lema do verbete, o que geralmente lhe confere a forma de uma subentrada. Os adendos estão após o parágrafo da última acepção do verbete. Cada adendo está num parágrafo próprio e é introduzido pelo ícone ●. Um exemplo de adendo pode ser visto na Figura 8, que mostra o verbete do lema .

Com base nisso, creio que não podemos inferir que as três expressões objeto desta issue constituam MWEs sob a perspectiva de UD.

leoalenc commented 3 weeks ago

>>> sents=Yauti.extractConlluSents(Yauti.TREEBANK_PATH)
>>> import re
>>> regex = re.compile(r"nẽ (mairamé|mayé|awá)", re.IGNORECASE)
>>> for sent in sents:
    text=sent.metadata['text']
    if regex.search(text):
        print(f"{sent.metadata['sent_id']}\n{text}")
        i=0
        while(i<len(sent)):
            if sent[i]['lemma'] == 'nẽ':
                nexttoken=sent[i+1]
                print(nexttoken['lemma'],nexttoken['feats'],nexttoken['deprel'])
            i+=1
        print()

Casasnovas2006:8:16:84
Yawé arã nẽ mairamé uwatari timbiú suka upé.
mairamé {'AdvType': 'Tim', 'PronType': 'Ind'} fixed

Casasnovas2006:9:2:86
Uwatá, paá, upurandú panhẽ kunhã, nẽ awá uputari aé.
awá {'PronType': 'Ind'} fixed

Rodrigues1890:1-1-1:11:101
Ah! se ramunha, nẽ mayé katú nhuntu, indé taá mayé taá resasawa?
mayé {'AdvType': 'Man', 'PronType': 'Int'} fixed
leoalenc commented 3 weeks ago

Grifos meus no trecho abaixo:

The creation of fixed multiword expressions is the end phase of a process of grammaticalization and there are always going to be cases of multiword expressions that are only somewhat grammaticalized. For practical treebanking, it is recommended to restrict this relation to the most grammaticalized cases and to treat them as a closed class by writing language-specific documentation listing the fixed expressions of the language.

https://universaldependencies.org/u/dep/fixed.html

leoalenc commented 3 weeks ago

No treebank, encontramos também ti awá 'ninguém', ti mairamé 'nunca' e ti makití 'para lugar nenhum', e possivelmente outras combinações análogas, que instanciam o mesmo padrão: negação + pronome indefinido (que funciona também como interrogativo). Portanto, não me parece uma construção idiossincrática ou extremamente gramaticalizada.

# sent_id = Avila2021:0:0:573
# text = Se ramunha, ti ana makití asú-kwáu.
# text_eng = My grandfather, I can't go anywhere anymore.
# text_por = Meu avô, não posso mais ir a lugar nenhum.
# text_source = Rodrigues, 187, adap.
# text_annotator = Leonel Figueiredo de Alencar
1   Se  se  PRON    PRON2   Case=Gen|Number=Sing|Person=1|Poss=Yes|PronType=Prs 2   nmod:poss   _   TokenRange=0:2
2   ramunha tamunha NOUN    N   Number=Sing|Rel=Cont    7   vocative    _   SpaceAfter=No|TokenRange=3:10
3   ,   ,   PUNCT   PUNCT   _   2   punct   _   TokenRange=10:11
4   ti  ti  PART    NEG PartType=Neg|Polarity=Neg   7   advmod  _   TokenRange=12:14
5   ana ana PART    PFV Aspect=Perf 7   advmod  _   TokenRange=15:18
6   makití  makití  ADV ADVNC   AdvType=Loc|PronType=Ind    7   advmod  _   TokenRange=19:25
7-8 asú-kwáu    _   _   _   _   _   _   _   SpaceAfter=No|TokenRange=26:34
7   asú sú  VERB    V   Mood=Ind|Number=Sing|Person=1|VerbForm=Fin  0   root    _   _
8   kwáu    kwáu    AUX AUXN    Compound=Yes|VerbForm=Inf   7   aux _   _
9   .   .   PUNCT   PUNCT   _   7   punct   _   SpaceAfter=No|TokenRange=34:35