CompLin / nheengatu

Tools and resources for the computational processing of Nheengatu (Modern Tupi)
7 stars 1 forks source link

implementar função para lidar com erros de digitação ou tipográficos #431

Closed leoalenc closed 4 months ago

leoalenc commented 4 months ago

@heliolbs , @dominickmaia e @juliana-gurgel , esta issue relaciona-se com #416.

Nesta sentença de Amorim (1928), tem-se pasú (pasu no original) em vez de pesú (pesu). Trata-se, provavelmente, de erro, pois não há outra ocorrência dessa forma em Amorim (1928). Pelo contrário, pesu, 2a pessoa do plural de su ‘ir’, ocorre 3 vezes noutros contextos.

# sent_id = Amorim1928:21:114:114 # text = Kuíri pasú ana sembiiwa kití, pexari ixé xapitá pe akanga irumu nhũ. # text_por = Agora vão já para a beirada, me deixem ficar só com o cabeça de vocês. # text_source = p. 355-369, No. 114 # text_orig = Kuyre pasu ana sembéyua ketŷ, pexeare ixé xapytá pe akanga yrumo nhu. # text_eng = TODO # text_orig_transcriber = Gabriela Lourenço Fernandes, Biblioteca Brasiliana Guita e José Mindlin # text_por_modernizer = Gabriela Lourenço Fernandes, Biblioteca Brasiliana Guita e José Mindlin # text_annotator = LFdeA # # inputline = Kuíri pasú/=typo:c|pesú ana sembiiwa/ncont kití, pexari ixé xapitá pe/pron2 akanga irumu/adp nhũ.

1   Kuíri   kuíri   ADV ADVT    AdvType=Tim 2   advmod  _   TokenRange=0:5
2   pasú    sú  VERB    V   Mood=Imp|Number=Plur|Person=2|Typo=Yes|VerbForm=Fin 0   root    _   CorrectForm=pesú|TokenRange=6:10
3   ana ana PART    PFV Aspect=Perf 2   advmod  _   TokenRange=11:14
4   sembiiwa    tembiiwa    NOUN    N   Number=Sing|Number[psor]=Sing|Person[psor]=3|Rel=NCont  2   obl _   TokenRange=15:23
5   kití    kití    ADP ADP AdpType=Post    4   case    _   SpaceAfter=No|TokenRange=24:28
6   ,   ,   PUNCT   PUNCT   _   7   punct   _   TokenRange=28:29
7   pexari  xari    VERB    V   Number=Plur|Person=2|VerbForm=Fin   2   parataxis   _   TokenRange=30:36
8   ixé ixé PRON    PRON    Number=Sing|Person=1|PronType=Prs   9   nsubj   _   TokenRange=37:40
9   xapitá  pitá    VERB    V   Number=Sing|Person=1|Style=Arch|VerbForm=Fin    7   ccomp   _   ModernForm=apitá|TokenRange=41:47
10  pe  pe  PRON    PRON2   Case=Gen|Number=Plur|Person=2|Poss=Yes|PronType=Prs 11  nmod:poss   _   TokenRange=48:50
11  akanga  akanga  NOUN    N   Number=Sing 9   obl _   TokenRange=51:57
12  irumu   irumu   ADP ADP AdpType=Post    11  case    _   TokenRange=58:63
13  nhũ nhũ ADV ADV _   9   advmod  _   SpaceAfter=No|TokenRange=64:67
14  .   .   PUNCT   PUNCT   _   2   punct   _   SpaceAfter=No|TokenRange=67:68
leoalenc commented 4 months ago

Para anotar erros de natureza tipográfica ou lapsos evidentes, implementei a etiqueta =typo. Essa etiqueta deflagra uma função de Python que admite como argumento nomeado (named parameter) a forma correta: pasú/=typo:c|pesú. Essa função gera os traços adequados para lidar com typos.