Open leoalenc opened 2 months ago
@leoalenc, a falta do ponto final no campo text
foi um erro que cometi na hora de passar a sentença anotada para o VisualCodeStudio. Corrigi esse erro agora e submeti o treebank ao validador. Esta e outras sentenças corrigidas estão neste commit.
Sentenças sem pontuação final:
>>> sents=Yauti.extractConlluSents(Yauti.TREEBANK_PATH)
>>> import string
>>> no_punct=[]
>>> for sent in sents:
last=sent.metadata['text'][-1]
if last not in string.punctuation+'…':
no_punct.append(sent)
>>> for sent in no_punct:
text_orig=sent.metadata.get('text_orig')
text_prim=sent.metadata.get('text_prim')
orig=text_orig or text_prim
print(f"{sent.metadata['sent_id']}\n{sent.metadata['text']}\n{orig}\n\n")
Navarro2016:4:1:06
Maria uwatá São Gabriel rupí
None
Casasnovas2006:11:19:150
Remaã indé, ne paya ti waá upaka pitupituna usikari arã rembaú arã, unheẽ, paá, waimĩ
Remaá indé, ne paya ti waá upaka pitupituna usikái arã rembaú arã, unheé, paá, waimí
Sentenças sem pontuação final em text_orig
ou sem text_orig
nas sentenças de Casasnovas (2006):
for sent in sents:
if sent.metadata['sent_id'].startswith('Casasnovas2006'):
text_orig=sent.metadata.get('text_orig')
if text_orig:
if text_orig[-1] not in string.punctuation+'…':
print(f"{sent.metadata['sent_id']}\n{text_orig}\n")
else:
print(f"{sent.metadata['sent_id']}\ntext_orig = {text_orig}\n")
Casasnovas2006:2:1:15
Yepé ara, yawaraté usú usikái yauti umbaú arã aé
Casasnovas2006:2:3:17
Ape yawaraté uyusikí usú merupí sesé
Casasnovas2006:4:8:43
Nhaã, paá, sukuriú santá uyari, ti ukataka ti arã uxái ximiara uyawawa
Casasnovas2006:11:4:135
Amú ara, paá, Teyú usú upurandú nhaá tainasawa
Casasnovas2006:11:5:136
Kurasí uxari yuíri umendái irumu
Casasnovas2006:11:8:139
Kwemaité, paá, usuã umukameé tasupé
Casasnovas2006:11:10:141
Sesewara umaité, paá, nhaã teyú atima manha
Casasnovas2006:11:19:150
Remaá indé, ne paya ti waá upaka pitupituna usikái arã rembaú arã, unheé, paá, waimí
Casasnovas2006:11:32:163
Umbaré ambá, anheé rakú indé arã, unheé, paá, Wakurawá
Casasnovas2006:12:9:175
Aápe, paá, aintá, uyuswantí, ta uyupirú ta upurungitá
Casasnovas2006:12:25:191
Adana, paá, umaã ta resé, upitá piri Buburí ruakí
Casasnovas2006:7:4:4
text_orig = None
Casasnovas2006:7:6:6
text_orig = None
@juliana-gurgel , nas sentenças listadas nas tarefas, veja se
Elabore, por favor, tabela e poste aqui.
Elabore, por favor, tabela e poste aqui. @leoalenc
Sentenças sem pontuação final em Casasnovas (2006) | ID da Sentença | Confere com o original | Juntar com sentença seguinte |
---|---|---|---|
Casasnovas2006:2:1:15 |
Sim | Não | |
Casasnovas2006:2:3:17 |
Sim | Não | |
Casasnovas2006:4:8:43 |
Sim | Não | |
Casasnovas2006:11:4:135 |
Sim | Não | |
Casasnovas2006:11:5:136 |
Sim | Não | |
Casasnovas2006:11:8:139 |
Sim | Não | |
Casasnovas2006:11:10:141 |
Sim | Não | |
Casasnovas2006:11:19:150 |
Sim | Não | |
Casasnovas2006:11:32:163 |
Sim | Não | |
Casasnovas2006:12:9:175 |
Sim | Não | |
Casasnovas2006:12:25:191 |
Sim | Não | |
Casasnovas2006:0:0:19 |
Sim | Não | |
Casasnovas2006:0:0:23 |
Sim | Não |
Tarefas:
text
em Casasnovas2006:11:19:150
.
(Ver este commit.)@juliana-gurgel , excelente trabalho! Obrigado. Seguindo nossa política mais conservadora em relação ao texto de Casasnovas (2006), incorporando, inclusive, desvios em relação ao que seria uma norma padrão, tendo a deixar as sentenças mesmo sem pontuação final que assim se encontram no original, salvo aquelas que precisam ser juntadas. Quer levar isso para discutir no grupo? Essa decisão afeta especialmente a anotação de textos antigos, como Magalhães (1876), Rodrigues (1890), Hartt (1938) etc. A documentação de UD reza:
If one or more words are missing from the text, we treat it as ellipsis.
Argumentos a favor ou contra devem ser postados aqui.
@juliana-gurgel , poderia, por favor, verificar a situação desta issue, determinando se podemos fechá-la ou não?
- [ ] comparar
Casasnovas2006:12:9:175
(https://github.com/CompLin/nheengatu/issues/353 ) com demais sentenças das lendas (@juliana-gurgel , verifique, por favor, as sentenças abaixo, tomando como ponto de partida as sentenças tais como estão neste repositório do CompLin)- [ ] verificar
Casasnovas2006:2:1:15
- [ ] verificar
Casasnovas2006:2:3:17
- [ ] verificar
Casasnovas2006:4:8:43
- [ ] verificar
Casasnovas2006:11:4:135
- [ ] verificar
Casasnovas2006:11:5:136
- [ ] verificar
Casasnovas2006:11:8:139
- [ ] verificar
Casasnovas2006:11:10:141
- [ ] verificar
Casasnovas2006:11:19:150
- [ ] verificar
Casasnovas2006:11:32:163
- [ ] verificar
Casasnovas2006:12:9:175
- [ ] verificar
Casasnovas2006:12:25:19
- [ ] verificar
Casasnovas2006:0:0:19
- [ ] verificar
Casasnovas2006:0:0:23
@leoalenc
@leoalenc, à luz do seu comentário sobre a segmentação de Avila (2021) na issue https://github.com/CompLin/nheengatu/issues/585, verifiquei novamente as sentenças listadas na citação acima e concluí que todas devem permanecer como estão. Ao meu ver, tratam-se de sentenças independentes e não devemos juntá-las com a sentença seguinte.
Para fechar esta issue, falta apenas marcar as tarefas da citação acima como concluídas.
- Casasnovas2006:2:1:15
@juliana-gurgel , obrigado pela conferida nessas sentenças. Vou deixar o ponto final em text
, embora inexistente no original text_orig
, levando em conta que a tradução contém ponto e esse erro pode ter sido meramente da editora.
sents=Yauti.extractConlluSents(Yauti.TREEBANK_PATH)
>>> i=0
>>> for sent in sents:
sentid=sent.metadata['sent_id']
if sentid.startswith('Casasnovas2006:'):
text=sent.metadata['text']
text_orig=sent.metadata.get('text_orig')
if text_orig:
if text_orig[-1] != text[-1]:
i+=1
print(f"{sentid}\n{text}\n{text_orig}")
else:
print(f"{5*'='}\nNo text_orig:{sentid}\n{5*'='}")
Casasnovas2006:2:1:15
Yepé ara, yawaraté usú usikari yautí umbaú arã aé.
Yepé ara, yawaraté usú usikái yauti umbaú arã aé
Casasnovas2006:2:3:17
Ape yawaraté uyusikí usú merupí sesé.
Ape yawaraté uyusikí usú merupí sesé
Casasnovas2006:4:8:43
Nhaã, paá, sukuriú santá uyari, ti ukataka ti arã uxari ximiára uyawáu.
Nhaã, paá, sukuriú santá uyari, ti ukataka ti arã uxái ximiara uyawawa
Casasnovas2006:11:4:135
Amú ara, paá, Teyú usú upurandú nhaã tainasawa.
Amú ara, paá, Teyú usú upurandú nhaá tainasawa
Casasnovas2006:11:5:136
Kurasí uxari yuíri umendari i irumu.
Kurasí uxari yuíri umendái irumu
Casasnovas2006:11:8:139
Kwemaité, paá, usú ã umukameẽ ta supé.
Kwemaité, paá, usuã umukameé tasupé
Casasnovas2006:11:10:141
Sesewara umaité, paá, nhaã teyú atiimamanha.
Sesewara umaité, paá, nhaã teyú atima manha
Casasnovas2006:11:19:150
Remaã indé, ne paya ti waá upaka pitupituna usikari arã rembaú arã, unheẽ, paá, waimĩ
Remaá indé, ne paya ti waá upaka pitupituna usikái arã rembaú arã, unheé, paá, waimí
Casasnovas2006:11:26:157
Ukanhemu usú umbawa uyutika wakutiwa kwera.
Ukanhemu usú umbawa uwitika wakutiwa kwera;
Casasnovas2006:11:32:163
Umbaá rẽ ambá, anheẽ rakú indé arã, unheẽ, paá, Wakurawá.
Umbaré ambá, anheé rakú indé arã, unheé, paá, Wakurawá
Casasnovas2006:12:25:191
Adana, paá, umaã ta resé, upitá piri Buburi ruakí.
Adana, paá, umaã ta resé, upitá piri Buburí ruakí
=====
No text_orig:Casasnovas2006:7:4:4
=====
=====
No text_orig:Casasnovas2006:7:6:6
=====
=====
No text_orig:Casasnovas2006:0:0:16
=====
Casasnovas2006:0:0:19
Yukasara suú yamaã waá kaá upé usika ana.
Yukasara suú yamaã waá kaá upé usikana
Casasnovas2006:0:0:23
Yandé yasarú usika waá pe manha, yaú arã pupunha yukisé.
Yandé yasarú usika waá pemanha, yaú arã pupunha yukisé
>>> i
13
>>> for sent in sents:
sentid=sent.metadata['sent_id']
if sentid.startswith('Casasnovas2006:'):
text=sent.metadata['text']
if text[-1] not in string.punctuation:
print(f"{sentid}\n{text}\n")
Casasnovas2006:11:19:150
Remaã indé, ne paya ti waá upaka pitupituna usikari arã rembaú arã, unheẽ, paá, waimĩ
Casasnovas2006:12:9:175
Aape, paá, aintá, uyusuantí, ta uyupirú ta upurungitá
Casasnovas2006:11:19:150
eCasasnovas2006:12:9:175
: falta mesmo pontuação no original, deixamos assim mesmo, @juliana-gurgel (eliminei o ponto final inserido na segunda)Casasnovas2006:12:9:175
(#353 ) com demais sentenças das lendas (@juliana-gurgel , verifique, por favor, as sentenças abaixo, tomando como ponto de partida as sentenças tais como estão neste repositório do CompLin)Casasnovas2006:2:1:15
Casasnovas2006:2:3:17
Casasnovas2006:4:8:43
Casasnovas2006:11:4:135
Casasnovas2006:11:5:136
Casasnovas2006:11:8:139
Casasnovas2006:11:10:141
Casasnovas2006:11:19:150
Casasnovas2006:11:32:163
Casasnovas2006:12:9:175
Casasnovas2006:12:25:191
Casasnovas2006:0:0:19
Casasnovas2006:0:0:23