Open leoalenc opened 3 weeks ago
Aparentemente, Avila (2021) considera todas as três expressões como locuções:
grep -Eahi "● nẽ (mairamé|mayé|awá)" avila-*.txt
● nẽ awá1 - ninguém // Reg. hist.: [Coudreau [neauá], 472; Tastevin [ne awa], 646] (v. em nẽ) ● nẽ awá2 - (e) nada! quem disse! (diz-se quando algo ou alguém que é procurado não é encontrado, quando faltam ao encontro ● nẽ mayé katú - de jeito nenhum, de forma alguma: Kwá "presidente" nẽ mayé katú usemu. - Esse presidente não sai de ● nẽ mayé katú - de jeito nenhum, de forma alguma: Kwá presidente nẽ mayé katú usemu. - Esse presidente não sai de ● nẽ mayé waá - nenhum (a): Yawé waá, kwá ara-itá rupí, nẽ mayé waá ukwá upurungitá ta nheenga, [...]. (Oliveira; ● nẽ mayé waá + [substantivo] + nungara / ou nẽ mayé waá nungara + [substantivo] / ou [substantivo] + nẽ mayé waá ● nẽ awá1 - ninguém // Reg. hist.: [Coudreau [neauá], 472; Tastevin [ne awa], 646]: Peé pitérupi paá ta umanduári ta upirari ● nẽ awá2 - (e) nada! quem disse! (diz-se quando algo ou alguém que é procurado não é encontrado, quando faltam ao encontro ● nẽ mairamé - em nenhum momento, nunca, jamais: [...], se ruixawa Kristu Jesus, resendú ixé, nẽ mairamé rexari ixé, ● nẽ mayé waá nungara - (de) nenhum tipo: [...] umbaá yapuderi yambaú yawaraté nẽ mayé waá nungara. (Payema, [...]
Avila (2021, p. 148) explica a função do símbolo ●:
Os verbetes podem ter adendos, que são seções que trazem formas complexas não lematizadas, lexias complexas, colocações, locuções, expressões, frases e utilizações específicas relacionadas ao lema do verbete, o que geralmente lhe confere a forma de uma subentrada. Os adendos estão após o parágrafo da última acepção do verbete. Cada adendo está num parágrafo próprio e é introduzido pelo ícone ●. Um exemplo de adendo pode ser visto na Figura 8, que mostra o verbete do lema
.
Com base nisso, creio que não podemos inferir que as três expressões objeto desta issue constituam MWEs sob a perspectiva de UD.
>>> sents=Yauti.extractConlluSents(Yauti.TREEBANK_PATH)
>>> import re
>>> regex = re.compile(r"nẽ (mairamé|mayé|awá)", re.IGNORECASE)
>>> for sent in sents:
text=sent.metadata['text']
if regex.search(text):
print(f"{sent.metadata['sent_id']}\n{text}")
i=0
while(i<len(sent)):
if sent[i]['lemma'] == 'nẽ':
nexttoken=sent[i+1]
print(nexttoken['lemma'],nexttoken['feats'],nexttoken['deprel'])
i+=1
print()
Casasnovas2006:8:16:84
Yawé arã nẽ mairamé uwatari timbiú suka upé.
mairamé {'AdvType': 'Tim', 'PronType': 'Ind'} fixed
Casasnovas2006:9:2:86
Uwatá, paá, upurandú panhẽ kunhã, nẽ awá uputari aé.
awá {'PronType': 'Ind'} fixed
Rodrigues1890:1-1-1:11:101
Ah! se ramunha, nẽ mayé katú nhuntu, indé taá mayé taá resasawa?
mayé {'AdvType': 'Man', 'PronType': 'Int'} fixed
Grifos meus no trecho abaixo:
The creation of fixed multiword expressions is the end phase of a process of grammaticalization and there are always going to be cases of multiword expressions that are only somewhat grammaticalized. For practical treebanking, it is recommended to restrict this relation to the most grammaticalized cases and to treat them as a closed class by writing language-specific documentation listing the fixed expressions of the language.
No treebank, encontramos também ti awá 'ninguém', ti mairamé 'nunca' e ti makití 'para lugar nenhum', e possivelmente outras combinações análogas, que instanciam o mesmo padrão: negação + pronome indefinido (que funciona também como interrogativo). Portanto, não me parece uma construção idiossincrática ou extremamente gramaticalizada.
# sent_id = Avila2021:0:0:573
# text = Se ramunha, ti ana makití asú-kwáu.
# text_eng = My grandfather, I can't go anywhere anymore.
# text_por = Meu avô, não posso mais ir a lugar nenhum.
# text_source = Rodrigues, 187, adap.
# text_annotator = Leonel Figueiredo de Alencar
1 Se se PRON PRON2 Case=Gen|Number=Sing|Person=1|Poss=Yes|PronType=Prs 2 nmod:poss _ TokenRange=0:2
2 ramunha tamunha NOUN N Number=Sing|Rel=Cont 7 vocative _ SpaceAfter=No|TokenRange=3:10
3 , , PUNCT PUNCT _ 2 punct _ TokenRange=10:11
4 ti ti PART NEG PartType=Neg|Polarity=Neg 7 advmod _ TokenRange=12:14
5 ana ana PART PFV Aspect=Perf 7 advmod _ TokenRange=15:18
6 makití makití ADV ADVNC AdvType=Loc|PronType=Ind 7 advmod _ TokenRange=19:25
7-8 asú-kwáu _ _ _ _ _ _ _ SpaceAfter=No|TokenRange=26:34
7 asú sú VERB V Mood=Ind|Number=Sing|Person=1|VerbForm=Fin 0 root _ _
8 kwáu kwáu AUX AUXN Compound=Yes|VerbForm=Inf 7 aux _ _
9 . . PUNCT PUNCT _ 7 punct _ SpaceAfter=No|TokenRange=34:35