CompLin / nheengatu

Tools and resources for the computational processing of Nheengatu (Modern Tupi)
7 stars 1 forks source link

atributo `cross_reference` em sentenças de Casasnovas (2006) #538

Open leoalenc opened 2 weeks ago

leoalenc commented 2 weeks ago
# sent_id = Casasnovas2006:8:13:81
# annotator_comment = sentence already in 'yrl_complin-ud-test.conllu' (Avila2021:0:0:460)
leoalenc commented 2 weeks ago

@juliana-gurgel , em situações como a exemplificada abaixo (#353 e #539 ), utilize, em vez de comment, o atributo cross_reference para identificar a sentença correspondente de Avila (2021), anotada com prefixo de sent_id Avila2021:

# sent_id = Casasnovas2006:11:25:156
# text = Ape, paá, aintá usú aintá umaã Teyú yutikasawa.
# text_eng = TODO
# text_por = Eles foram e viram a derrubada do Calango.
# text_source = p. 95, No. 33
# text_orig = Ape, paá, aintá usú aintá umaã Teyú witikasawa.
# text_sec = Ape paá aintá usú aintá umaã teyú yutikasawa.
# text_por_sec = Então eles foram ver a derrubada [de mata] do calango.
# text_sec_source = Avila (2021)
# text_por_sec_source = Avila (2021)
# text_annotator = Juliana Lopes Gurgel
# comment = sentence already in 'yrl_complin-ud-test.conllu' (Avila2021:0:0:371)
# acknowledgement = DACILAT Project, FAPESP's Process No. 2022/09158-5
# reviewer1 = Leonel Figueiredo de Alencar

Nesse caso, deveríamos ter:

# cross_reference = Avila2021:0:0:371
leoalenc commented 2 days ago

@juliana-gurgel , veja esta issue. Vou alterar o atributo neste repositório.

leoalenc commented 1 day ago
for sent in sents:
    comment=sent.metadata.get('annotator_comment')
    if comment and 'already' in comment:
        start=comment.index('(')
        end=comment.index(')')
        sentid=comment[start+1:end]
        av=AnnotateConllu.getSentsWithSentId(sentid,sents)[0]
        if av.metadata['text'] == sent.metadata['text']:
            print('same text',sentid,sent.metadata['sent_id'])
        else:
            print(f"{sentid} {sent.metadata['sent_id']}",f"Avila: {av.metadata['text']}",f"Jul: {sent.metadata['text']}",f"Casasnovas: {sent.metadata['text_orig']}",sep='\n',end='\n\n')
Avila2021:0:0:460 Casasnovas2006:8:13:81
Avila: Asuí paá ta umbué aé mayé usikari arã ximiára piripiriáka irumu.
Jul: Asuí, paá, taumbué aé mayé usikari arã ximiára piripiriaka irumu.
Casasnovas: Asuí, paá, taumbwé aé mayé usikái arã ximiara piripiriaka irumu.

Avila2021:0:0:542 Casasnovas2006:9:8:92
Avila: Ape paá i manha umeẽ i xupé pusanga umusasawa arã i pira rupí, ti arã nhaã urubú kunhã-itá umaã aé.
Jul: Ape, paá, i manha umeẽ i xupé pusanga umusasawa arã i pira rupí, ti arã nhaã urubú-kunhã-itá umaã aé.
Casasnovas: Ape, paá, imanha umeé ixupé pusanga umusasawa arã ipira rupí, ti arã nhaã urubú kunhãitá umaã aé.

Avila2021:0:0:198 Casasnovas2006:9:10:94
Avila: Usika, umaã siiya kunhã-itá upisika waá-itá uikú pirá-mirĩ yuka.
Jul: Usika umaã siía kunhã-itá upisika waá-itá uikú pirá-mirĩ yuka.
Casasnovas: Usika umaã siía kunhãitá upisika waáitá uikú pirá mirí yuka.

Avila2021:0:0:588 Casasnovas2006:9:14:98
Avila: Ape paá upitá mira yuíri umpú arama nhaã amú-itá.
Jul: Ape, paá, upitá mira yuíri umpú arã nhaã amú-itá.
Casasnovas: Ape, paá, upitá mira yuíri umpú arã nhaã amuitá.

Avila2021:0:0:24 Casasnovas2006:9:20:104
Avila: Asuí paá nhaã kunhã i kweré wana umbaú maã i mena umbaú waá.
Jul: Asuí, paá, nhaã kunhã i kweré wana umbaú maã i mena umbaú waá.
Casasnovas: Asuí, paá, nhaã kunhã ikweré wana umbaú maá imena umbaú waá.

Avila2021:0:0:36 Casasnovas2006:9:23:107
Avila: Muíri ara paá upurandú suixawa suí umeẽ arã i xupé i pepú arã, uyuíri arã i anama-itá piri.
Jul: Muíri ara, paá, upurandú suixawa suí umeẽ arã i xupé i pepú arã, uyuíri arã i anama-itá piri.
Casasnovas: Muiri ara, paá, upurandú suixawa suí umeé arã ixupé ipepú arã, uyuíri arã ianamaitá piri.

Avila2021:0:0:306 Casasnovas2006:9:32:116
Avila: Mairamé paá waimĩ usendú tiapú unheengari puranga, umbeú sesewara, ape paá waimĩ usemu ukara kití, umaã paá iwaté ana uyupiri usú uikú, usú ana iwaka kití i membira mirĩ irumu i anama-itá piri.
Jul: Mairamé, paá, waimĩ usendú tiapú unheengari puranga umbeú sesewara, ape, paá, waimĩ usemu ukara kití, umaã, paá, iwaté ana uyupiri usú uikú, usú ana iwaka kití i membira mirĩ irumu, i anama-itá piri.
Casasnovas: Mairamé, paá, waimí usendú tiapú unhengai puranga umbeú sesewara, ape, paá, waimí usemu ukara kití, umaã, paá, iwatéana uyupiri usú uikú, usuana iwaka kití imembira mirí irumu, ianamaitá piri.

same text Avila2021:7:1:47 Casasnovas2006:10:10:129
same text Avila2021:7:2:48 Casasnovas2006:10:11:130
juliana-gurgel commented 6 hours ago

@leoalenc, abaixo, constam todas as ocorrências que devem ser corrigidas para a conclusão das seguintes tarefas:

  • [ ] o mesmo para annotator_comment
  • [ ] checar se estão consistentes entre si as anotações de exemplos com prefixo Avila2021 das mesmas sentenças de Casasnovas2006 identificadas por meio de annotator_comment (@dominickmaia, @juliana-gurgel )

De acordo com o metadado next na sentença Casasnovas2006:10:9:128, incluí também uma tarefa para corrigir o metadado comment na sentença Casasnovas2006:12:28:194.

leoalenc commented 4 hours ago
  • Casasnovas2006:12:28:194

@juliana-gurgel , veja #585. Nesse caso, parece que não teremos # next = Avila2021:2:1:10, Avila2021:2:2:11, Avila2021:18:1:175. Em vez disso, você precisaria restaurar a versão original de Casasnovas (2006), conforme #585.