CompLin / nheengatu

Tools and resources for the computational processing of Nheengatu (Modern Tupi)
7 stars 2 forks source link

falta de pontuação final em sentenças das lendas de Casasnovas (2006) #555

Open leoalenc opened 2 months ago

leoalenc commented 2 months ago
juliana-gurgel commented 2 months ago

@leoalenc, a falta do ponto final no campo text foi um erro que cometi na hora de passar a sentença anotada para o VisualCodeStudio. Corrigi esse erro agora e submeti o treebank ao validador. Esta e outras sentenças corrigidas estão neste commit.

leoalenc commented 1 month ago

Sentenças sem pontuação final:

>>> sents=Yauti.extractConlluSents(Yauti.TREEBANK_PATH)
>>> import string
>>> no_punct=[]
>>> for sent in sents:
    last=sent.metadata['text'][-1]
    if last not in string.punctuation+'…':
        no_punct.append(sent)

>>> for sent in no_punct:
    text_orig=sent.metadata.get('text_orig')
    text_prim=sent.metadata.get('text_prim')
    orig=text_orig or text_prim
    print(f"{sent.metadata['sent_id']}\n{sent.metadata['text']}\n{orig}\n\n")
Navarro2016:4:1:06
Maria uwatá São Gabriel rupí
None

Casasnovas2006:11:19:150
Remaã indé, ne paya ti waá upaka pitupituna usikari arã rembaú arã, unheẽ, paá, waimĩ
Remaá indé, ne paya ti waá upaka pitupituna usikái arã rembaú arã, unheé, paá, waimí
leoalenc commented 1 month ago

Sentenças sem pontuação final em text_origou sem text_orig nas sentenças de Casasnovas (2006):


for sent in sents:
    if sent.metadata['sent_id'].startswith('Casasnovas2006'):
        text_orig=sent.metadata.get('text_orig')
        if text_orig:
            if text_orig[-1] not in string.punctuation+'…':
                print(f"{sent.metadata['sent_id']}\n{text_orig}\n")
        else:
            print(f"{sent.metadata['sent_id']}\ntext_orig = {text_orig}\n")
Casasnovas2006:2:1:15
Yepé ara, yawaraté usú usikái yauti umbaú arã aé

Casasnovas2006:2:3:17
Ape yawaraté uyusikí usú merupí sesé

Casasnovas2006:4:8:43
Nhaã, paá, sukuriú santá uyari, ti ukataka ti arã uxái ximiara uyawawa

Casasnovas2006:11:4:135
Amú ara, paá, Teyú usú upurandú nhaá tainasawa

Casasnovas2006:11:5:136
Kurasí uxari yuíri umendái irumu

Casasnovas2006:11:8:139
Kwemaité, paá, usuã umukameé tasupé

Casasnovas2006:11:10:141
Sesewara umaité, paá, nhaã teyú atima manha

Casasnovas2006:11:19:150
Remaá indé, ne paya ti waá upaka pitupituna usikái arã rembaú arã, unheé, paá, waimí

Casasnovas2006:11:32:163
Umbaré ambá, anheé rakú indé arã, unheé, paá, Wakurawá

Casasnovas2006:12:9:175
Aápe, paá, aintá, uyuswantí, ta uyupirú ta upurungitá

Casasnovas2006:12:25:191
Adana, paá, umaã ta resé, upitá piri Buburí ruakí

Casasnovas2006:7:4:4
text_orig = None

Casasnovas2006:7:6:6
text_orig = None
leoalenc commented 1 month ago

@juliana-gurgel , nas sentenças listadas nas tarefas, veja se

  1. confere ou não com o original
  2. se é caso de juntar com sentença seguinte ou não

Elabore, por favor, tabela e poste aqui.

juliana-gurgel commented 1 month ago

Elabore, por favor, tabela e poste aqui. @leoalenc

Sentenças sem pontuação final em Casasnovas (2006) ID da Sentença Confere com o original Juntar com sentença seguinte
Casasnovas2006:2:1:15 Sim Não
Casasnovas2006:2:3:17 Sim Não
Casasnovas2006:4:8:43 Sim Não
Casasnovas2006:11:4:135 Sim Não
Casasnovas2006:11:5:136 Sim Não
Casasnovas2006:11:8:139 Sim Não
Casasnovas2006:11:10:141 Sim Não
Casasnovas2006:11:19:150 Sim Não
Casasnovas2006:11:32:163 Sim Não
Casasnovas2006:12:9:175 Sim Não
Casasnovas2006:12:25:191 Sim Não
Casasnovas2006:0:0:19 Sim Não
Casasnovas2006:0:0:23 Sim Não

Tarefas:

leoalenc commented 1 month ago

@juliana-gurgel , excelente trabalho! Obrigado. Seguindo nossa política mais conservadora em relação ao texto de Casasnovas (2006), incorporando, inclusive, desvios em relação ao que seria uma norma padrão, tendo a deixar as sentenças mesmo sem pontuação final que assim se encontram no original, salvo aquelas que precisam ser juntadas. Quer levar isso para discutir no grupo? Essa decisão afeta especialmente a anotação de textos antigos, como Magalhães (1876), Rodrigues (1890), Hartt (1938) etc. A documentação de UD reza:

If one or more words are missing from the text, we treat it as ellipsis.

Argumentos a favor ou contra devem ser postados aqui.

leoalenc commented 1 month ago

@juliana-gurgel , poderia, por favor, verificar a situação desta issue, determinando se podemos fechá-la ou não?

juliana-gurgel commented 1 month ago
  • [ ] comparar Casasnovas2006:12:9:175 (https://github.com/CompLin/nheengatu/issues/353 ) com demais sentenças das lendas (@juliana-gurgel , verifique, por favor, as sentenças abaixo, tomando como ponto de partida as sentenças tais como estão neste repositório do CompLin)
  • [ ] verificar Casasnovas2006:2:1:15
  • [ ] verificar Casasnovas2006:2:3:17
  • [ ] verificar Casasnovas2006:4:8:43
  • [ ] verificar Casasnovas2006:11:4:135
  • [ ] verificar Casasnovas2006:11:5:136
  • [ ] verificar Casasnovas2006:11:8:139
  • [ ] verificar Casasnovas2006:11:10:141
  • [ ] verificar Casasnovas2006:11:19:150
  • [ ] verificar Casasnovas2006:11:32:163
  • [ ] verificar Casasnovas2006:12:9:175
  • [ ] verificar Casasnovas2006:12:25:19
  • [ ] verificar Casasnovas2006:0:0:19
  • [ ] verificar Casasnovas2006:0:0:23 @leoalenc

@leoalenc, à luz do seu comentário sobre a segmentação de Avila (2021) na issue https://github.com/CompLin/nheengatu/issues/585, verifiquei novamente as sentenças listadas na citação acima e concluí que todas devem permanecer como estão. Ao meu ver, tratam-se de sentenças independentes e não devemos juntá-las com a sentença seguinte.

Para fechar esta issue, falta apenas marcar as tarefas da citação acima como concluídas.

leoalenc commented 1 month ago
  • Casasnovas2006:2:1:15

@juliana-gurgel , obrigado pela conferida nessas sentenças. Vou deixar o ponto final em text, embora inexistente no original text_orig, levando em conta que a tradução contém ponto e esse erro pode ter sido meramente da editora.

sents=Yauti.extractConlluSents(Yauti.TREEBANK_PATH)

>>> i=0
>>> for sent in sents:
    sentid=sent.metadata['sent_id']
    if sentid.startswith('Casasnovas2006:'):
        text=sent.metadata['text']
        text_orig=sent.metadata.get('text_orig')
        if text_orig:
            if text_orig[-1] != text[-1]:
                i+=1
                print(f"{sentid}\n{text}\n{text_orig}")
        else:
            print(f"{5*'='}\nNo text_orig:{sentid}\n{5*'='}")

Casasnovas2006:2:1:15
Yepé ara, yawaraté usú usikari yautí umbaú arã aé.
Yepé ara, yawaraté usú usikái yauti umbaú arã aé
Casasnovas2006:2:3:17
Ape yawaraté uyusikí usú merupí sesé.
Ape yawaraté uyusikí usú merupí sesé
Casasnovas2006:4:8:43
Nhaã, paá, sukuriú santá uyari, ti ukataka ti arã uxari ximiára uyawáu.
Nhaã, paá, sukuriú santá uyari, ti ukataka ti arã uxái ximiara uyawawa
Casasnovas2006:11:4:135
Amú ara, paá, Teyú usú upurandú nhaã tainasawa.
Amú ara, paá, Teyú usú upurandú nhaá tainasawa
Casasnovas2006:11:5:136
Kurasí uxari yuíri umendari i irumu.
Kurasí uxari yuíri umendái irumu
Casasnovas2006:11:8:139
Kwemaité, paá, usú ã umukameẽ ta supé.
Kwemaité, paá, usuã umukameé tasupé
Casasnovas2006:11:10:141
Sesewara umaité, paá, nhaã teyú atiimamanha.
Sesewara umaité, paá, nhaã teyú atima manha
Casasnovas2006:11:19:150
Remaã indé, ne paya ti waá upaka pitupituna usikari arã rembaú arã, unheẽ, paá, waimĩ
Remaá indé, ne paya ti waá upaka pitupituna usikái arã rembaú arã, unheé, paá, waimí
Casasnovas2006:11:26:157
Ukanhemu usú umbawa uyutika wakutiwa kwera.
Ukanhemu usú umbawa uwitika wakutiwa kwera;
Casasnovas2006:11:32:163
Umbaá rẽ ambá, anheẽ rakú indé arã, unheẽ, paá, Wakurawá.
Umbaré ambá, anheé rakú indé arã, unheé, paá, Wakurawá
Casasnovas2006:12:25:191
Adana, paá, umaã ta resé, upitá piri Buburi ruakí.
Adana, paá, umaã ta resé, upitá piri Buburí ruakí
=====
No text_orig:Casasnovas2006:7:4:4
=====
=====
No text_orig:Casasnovas2006:7:6:6
=====
=====
No text_orig:Casasnovas2006:0:0:16
=====
Casasnovas2006:0:0:19
Yukasara suú yamaã waá kaá upé usika ana.
Yukasara suú yamaã waá kaá upé usikana
Casasnovas2006:0:0:23
Yandé yasarú usika waá pe manha, yaú arã pupunha yukisé.
Yandé yasarú usika waá pemanha, yaú arã pupunha yukisé
>>> i
13
leoalenc commented 1 month ago
>>> for sent in sents:
    sentid=sent.metadata['sent_id']
    if sentid.startswith('Casasnovas2006:'):
        text=sent.metadata['text']
        if text[-1] not in string.punctuation:
            print(f"{sentid}\n{text}\n")

Casasnovas2006:11:19:150
Remaã indé, ne paya ti waá upaka pitupituna usikari arã rembaú arã, unheẽ, paá, waimĩ

Casasnovas2006:12:9:175
Aape, paá, aintá, uyusuantí, ta uyupirú ta upurungitá