CompLin / nheengatu

Tools and resources for the computational processing of Nheengatu (Modern Tupi)
7 stars 1 forks source link

checar consistência das anotações de duplicatas #599

Open leoalenc opened 1 month ago

leoalenc commented 1 month ago

O obejtivo maior desta issue é revisar todas as sentenças de Casasnovas (2006) com atributo cross_reference, comparando com anotação da versão com prefixo Avila2021, checando consistência entre as duas anotações.

Tarefas para obter consistência de anotação

  1. Casasnovas2006:8:7:75Avila2021:0:0:461

    • [x] Sanar a inconsistência de anotação.
  2. Casasnovas2006:8:13:81Avila2021:0:0:460

    • [x] Sanar a inconsistência de anotação.
  3. Casasnovas2006:9:8:92Avila2021:0:0:542

    • [x] Sanar a inconsistência de anotação.
  4. Casasnovas2006:9:10:94Avila2021:0:0:198

    • [ ] Revisar a anotação consistente.
  5. Casasnovas2006:9:14:98Avila2021:0:0:588

    • [ ] Revisar a anotação consistente.
  6. Casasnovas2006:9:20:104Avila2021:0:0:24

    • [ ] Revisar a anotação consistente.
  7. Casasnovas2006:9:23:107Avila2021:0:0:36

    • [ ] Sanar a inconsistência de anotação.
  8. Casasnovas2006:9:32:116Avila2021:0:0:306

    • [ ] Sanar a inconsistência de anotação.
  9. Casasnovas2006:10:1:120Avila2021:0:0:174

    • [ ] Sanar a inconsistência de anotação.
  10. Casasnovas2006:10:10:129Avila2021:7:1:47

    • [ ] Revisar a anotação consistente.
  11. Casasnovas2006:10:11:130Avila2021:7:2:48

    • [ ] Sanar a inconsistência de anotação.
  12. Casasnovas2006:11:7:138Avila2021:0:0:155

    • [ ] Revisar a anotação consistente.
  13. Casasnovas2006:11:11:142Avila2021:0:0:297

    • [ ] Revisar a anotação consistente.
  14. Casasnovas2006:11:25:156Avila2021:0:0:371

    • [ ] Revisar a anotação consistente.
  15. Casasnovas2006:12:16:182Avila2021:0:0:555

    • [ ] Revisar a anotação consistente.
  16. Casasnovas2006:12:19:185Avila2021:33:1:420

    • [ ] Revisar a anotação consistente.
  17. Casasnovas2006:12:23:189Avila2021:0:0:511

    • [ ] Sanar a inconsistência de anotação.
  18. Casasnovas2006:12:26:192Avila2021:30:1:346 / Avila2021:30:2:347

    • [ ] Discutir em grupo.
  19. Casasnovas2006:12:27:193Avila2021:2:1:10 / Avila2021:2:2:11

    • [ ] Discutir em grupo.
  20. Casasnovas2006:12:28:194Avila2021:18:1:175 / Avila2021:18:2:176

    • [ ] Discutir em grupo.
juliana-gurgel commented 1 month ago
  • [ ] revisar todas as sentenças de Casasnovas com atributo cross_reference, comparando com anotação da versão com prefixo Avila2021, checando consistência entre as duas anotações

@leoalenc, @dominickmaia e @heliolbs, no levantamento que fiz por meio dos atributos annotator_comment ou cross_reference, encontrei 20 sentenças, conforme a tabela a seguir:

casasnovas.conllu yrl_complin-ud-test.conllu Anotação Consistente
Casasnovas2006:8:7:75 Avila2021:0:0:461 Não
Casasnovas2006:8:13:81 Avila2021:0:0:460 Não
Casasnovas2006:9:8:92 Avila2021:0:0:542 Não
Casasnovas2006:9:10:94 Avila2021:0:0:198 Sim
Casasnovas2006:9:14:98 Avila2021:0:0:588 Sim
Casasnovas2006:9:20:104 Avila2021:0:0:24 Sim
Casasnovas2006:9:23:107 Avila2021:0:0:36 Não
Casasnovas2006:9:32:116 Avila2021:0:0:306 Não
Casasnovas2006:10:1:120 Avila2021:0:0:174 Não
Casasnovas2006:10:10:129 Avila2021:7:1:47 Sim
Casasnovas2006:10:11:130 Avila2021:7:2:48 Não
Casasnovas2006:11:7:138 Avila2021:0:0:155 Sim
Casasnovas2006:11:11:142 Avila2021:0:0:297 Sim
Casasnovas2006:11:25:156 Avila2021:0:0:371 Sim
Casasnovas2006:12:16:182 Avila2021:0:0:555 Sim
Casasnovas2006:12:19:185 Avila2021:33:1:420 Sim
Casasnovas2006:12:23:189 Avila2021:0:0:511 Não
Casasnovas2006:12:26:192 Avila2021:30:1:346

Avila2021:30:2:347
Discutir em grupo
Casasnovas2006:12:27:193 Avila2021:2:1:10

Avila2021:2:2:11
Discutir em grupo
Casasnovas2006:12:28:194 Avila2021:18:1:175

Avila2021:18:2:176
Discutir em grupo

@dominickmaia e @heliolbs , nessa revisão inicial das anotações, observei se as upos, xpos, deprel e headeram convergentes. Mas podemos, na reunião de sexta (04/10), analisar novamente cada uma considerando todas as colunas.

juliana-gurgel commented 1 month ago

@dominickmaia e @heliolbs , nessa revisão inicial das anotações, observei se as upos, xpos, deprel e headeram convergentes. Mas podemos, na reunião de sexta (04/10), analisar novamente cada uma considerando todas as colunas.

Professor @leoalenc, na reunião de hoje chegamos à conclusão de que faz sentido fazer a revisão da convergência dos seguintes campos: upos, xpos, feats, deprel, head e misc. Incluímos feats e misc para conferir se o senhor incluiu em Avila2021 algum atributo que eu não incluí em Casasnovas2006.

O senhor concorda com esse procedimento de revisão?

leoalenc commented 1 month ago

@juliana-gurgel , obrigado pela condução das atividades desta importantíssima issue. Na verdade, acho que tudo deve ser revisado, incluindo form e lemma, mas levando em conta nossa política conservadora de adaptação. Não consigo imaginar um procedimento mecânico de revisão. É algo a ser feito por especialistas humanos. Vou dar logo um exemplo, depois comentarei outros casos.

# sent_id = Avila2021:0:0:461
# text = Ape paá ta usuú piripiriáka, asuí ta upuri ta uyatimana miráwasú rupitá.
# text_eng = There, they say they chewed chilli pepper, then jumped around the trunk of a large tree.
# text_por = Aí, dizem que eles mastigaram piripirioca, depois saltaram rodeando o tronco de uma grande árvore.
# text_source = Casasnovas, 85, adap.
# text_annotator = LFdeA
1   Ape ape ADV ADVDI   AdvType=Loc|Deixis=Remt|PronType=Dem    4   advmod  _   TokenRange=0:3
2   paá paá PART    RPRT    Evident=Nfh|PartType=Mod    4   advmod  _   TokenRange=4:7
3   ta  ta  PRON    PRON    Number=Plur|Person=3|PronType=Prs   4   nsubj   _   TokenRange=8:10
4   usuú    suú VERB    V   Mood=Ind|Person=3|VerbForm=Fin  0   root    _   TokenRange=11:15
5   piripiriáka piripiriáka NOUN    N   Number=Sing 4   obj _   SpaceAfter=No|TokenRange=16:27
6   ,   ,   PUNCT   PUNCT   _   9   punct   _   TokenRange=27:28
7   asuí    asuí    ADV ADVT    AdvType=Tim 9   advmod  _   TokenRange=29:33
8   ta  ta  PRON    PRON    Number=Plur|Person=3|PronType=Prs   9   nsubj   _   TokenRange=34:36
9   upuri   puri    VERB    V   Mood=Ind|Person=3|VerbForm=Fin  4   parataxis   _   TokenRange=37:42
10  ta  ta  PRON    PRON    Number=Plur|Person=3|PronType=Prs   9   obj _   TokenRange=43:45
11  uyatimana   yatimana    VERB    V   Mood=Ind|Person=3|VerbForm=Fin  9   parataxis   _   TokenRange=46:55
12  miráwasú    mirá    NOUN    N   Degree=Aug|Number=Sing  13  nmod:poss   _   TokenRange=56:64
13  rupitá  supitá  NOUN    N   Number=Sing|Rel=Cont    11  obj _   SpaceAfter=No|TokenRange=65:71
14  .   .   PUNCT   PUNCT   _   4   punct   _   SpaceAfter=No|TokenRange=71:72

dependency_tree

leoalenc commented 1 month ago

Nessa minha análise, detecto agora um erro bastante óbvio, exposto pelo gráfico: o nó 10 não e obj de 9, mas nsubj de 11.

Na análise parcialmente revisada de @juliana-gurgel , o pronome ta integra as três formas verbais como prefixo flexional, não constituindo nós independentes na árvore, conforme a política conservadora de adaptação. Abstraindo de todas essas diferenças que não relevam à tarefa, constatamos uma divergência significativa entre as duas análises na cabeça (head) do verbo yatimana: enquanto o subordinei ao verbo imediatamente precedente, @juliana-gurgel o vinculou como dependente do verbo mais alto da sentença, ou seja, suú.


# sent_id = Casasnovas2006:8:7:75
# text = Ape paá, tausuú piripiriáka, asuí, tapuri tauyatimana miráwasú rupitá.
# text_eng = TODO
# text_eng_ggl = They then began to chew piprioca, then jumped around a log,
# text_por = Eles, então, puseram-se a mastigar piprioca, depois deram um salto em torno de um tronco,
# text_source = p. 85, No. 8
# text_orig = Ape paá, tausuú piripiriaka, asuí, tapuri tauyatimana mirá wasú rupitá.
# text_annotator = Juliana Lopes Gurgel
# title = Yawaraté mira
# title_orig = Yawaraté Mira
# title_por_orig = Gente-onça
# title_eng = Jaguar people
# text_sec = Ape paá ta usuú piripiriáka, asuí ta upuri ta uyatimana miráwasú rupitá.
# text_por_sec = Aí, dizem que eles mastigaram piripirioca, depois saltaram rodeando o tronco de uma grande árvore.
# text_sec_source = Avila (2021)
# text_por_sec_source = Avila (2021)
# cross_reference = Avila2021:0:0:461
# acknowledgement = DACILAT Project, FAPESP's Process No. 2022/09158-5
# reviewer1 = Leonel Figueiredo de Alencar
# review_status = ongoing
1   Ape ape ADV ADVT    AdvType=Tim 4   advmod  _   TokenRange=0:3
2   paá paá PART    RPRT    Evident=Nfh|PartType=Mod    4   advmod  _   SpaceAfter=No|TokenRange=4:7
3   ,   ,   PUNCT   PUNCT   _   2   punct   _   TokenRange=7:8
4   tausuú  suú VERB    V   Mood=Ind|Number=Plur|Person=3|VerbForm=Fin  0   root    _   TokenRange=12:16
5   piripiriáka piripiriáka NOUN    N   Number=Sing 4   obj _   SpaceAfter=No|TokenRange=17:28
6   ,   ,   PUNCT   PUNCT   _   7   punct   _   TokenRange=28:29
7   asuí    asuí    ADV ADVT    AdvType=Tim 9   advmod  _   SpaceAfter=No|TokenRange=30:34
8   ,   ,   PUNCT   PUNCT   _   7   punct   _   TokenRange=34:35
9   tapuri  puri    VERB    V   Mood=Ind|Number=Plur|Person=3|VerbForm=Fin  4   parataxis   _   TokenRange=39:44
10  tauyatimana yatimana    VERB    V   Mood=Ind|Number=Plur|Person=3|VerbForm=Fin  4   parataxis   _   TokenRange=48:57
11  miráwasú    mirá    NOUN    N   Degree=Aug|Number=Sing  12  nmod:poss   _   TokenRange=58:66
12  rupitá  supitá  NOUN    N   Number=Sing|Rel=Cont    10  obj _   SpaceAfter=No|TokenRange=67:73
13  .   .   PUNCT   PUNCT   _   4   punct   _   SpaceAfter=No|TokenRange=73:74

dependency_tree

leoalenc commented 1 month ago

Essa divergência entre Avila2021:0:0:461 e Casasnovas2006:8:7:75 não deve, em hipótese alguma, persistir. Nesse quesito, é necessária a convergência entre as duas análises, pois se trata do mesmo fenômeno gramatical. Em #308 e noutras issues, tenho exposto minhas dúvidas a respeito da análise mais correta desse tipo de construção do nheengatu, comum a diversas outras línguas do mundo, especialmente as amazônicas, mas inexistente em línguas como o português. Ocorre com bastante frequência em Casasnovas (2006). Vejo que @juliana-gurgel aderiu estritamente à recomendação de UD:

Sometimes there are more than two sentences joined in this way. In this case we make all the later sentences dependents of the first one, to maximize similarity to the analysis used for conjunction. https://universaldependencies.org/u/overview/specific-syntax.html#side-by-side-sentences-run-on-sentences

Venho, porém, adotando uma interpretação menos estrita, considerando esta outra orientação:

https://universaldependencies.org/u/dep/conj.html#nested-coordination

Ou seja, dada a exigência de paralelismo entre conjunção e parataxe, considero que no exemplo em tela temos a seguinte situação:

A, (B, C)

Desse modo, vou alterar Casasnovas2006:8:7:75 para se conformar a `Avila2021:0:0:461 nesse ponto. @heliolbs, @juliana-gurgel e @dominickmaia , alguma ideia contrária? Seria importantíssimo verificar todas as análises de @juliana-gurgel , mesmo aquelas que já revisei, levando em conta os proncípios da anotação de parataxe encaixada como em Avila2021:0:0:461.

leoalenc commented 1 month ago

Esses meus últimos comentários relacionam-se estreitamente com #515.

leoalenc commented 1 month ago

@juliana-gurgel , fiz as correções em ambas as versões. Veja que também alterei a ligação da primeira vírgula que separa asuí. Creio que essa vírgula primeiro separa a oração cabeça da oração dependente, não configurando a situação referida na documentação de UD como estrutura parentética.

# sent_id = Casasnovas2006:8:7:75
# text = Ape paá, tausuú piripiriáka, asuí, tapuri tauyatimana miráwasú rupitá.
# text_eng = TODO
# text_eng_ggl = They then began to chew piprioca, then jumped around a log,
# text_por = Eles, então, puseram-se a mastigar piprioca, depois deram um salto em torno de um tronco,
# text_source = p. 85, No. 8
# text_orig = Ape paá, tausuú piripiriaka, asuí, tapuri tauyatimana mirá wasú rupitá.
# text_annotator = Juliana Lopes Gurgel
# title = Yawaraté mira
# title_orig = Yawaraté Mira
# title_por_orig = Gente-onça
# title_eng = Jaguar people
# text_sec = Ape paá ta usuú piripiriáka, asuí ta upuri ta uyatimana miráwasú rupitá.
# text_por_sec = Aí, dizem que eles mastigaram piripirioca, depois saltaram rodeando o tronco de uma grande árvore.
# text_sec_source = Avila (2021)
# text_por_sec_source = Avila (2021)
# cross_reference = Avila2021:0:0:461
# acknowledgement = DACILAT Project, FAPESP's Process No. 2022/09158-5
# reviewer1 = Leonel Figueiredo de Alencar
1   Ape ape ADV ADVT    AdvType=Tim 4   advmod  _   TokenRange=0:3
2   paá paá PART    RPRT    Evident=Nfh|PartType=Mod    4   advmod  _   SpaceAfter=No|TokenRange=4:7
3   ,   ,   PUNCT   PUNCT   _   2   punct   _   TokenRange=7:8
4   tausuú  suú VERB    V   Mood=Ind|Number=Plur|Person=3|VerbForm=Fin  0   root    _   TokenRange=12:16
5   piripiriáka piripiriáka NOUN    N   Number=Sing 4   obj _   SpaceAfter=No|TokenRange=17:28
6   ,   ,   PUNCT   PUNCT   _   9   punct   _   TokenRange=28:29
7   asuí    asuí    ADV ADVT    AdvType=Tim 9   advmod  _   SpaceAfter=No|TokenRange=30:34
8   ,   ,   PUNCT   PUNCT   _   7   punct   _   TokenRange=34:35
9   tapuri  puri    VERB    V   Mood=Ind|Number=Plur|Person=3|VerbForm=Fin  4   parataxis   _   TokenRange=39:44
10  tauyatimana yatimana    VERB    V   Mood=Ind|Number=Plur|Person=3|VerbForm=Fin  9   parataxis   _   TokenRange=48:57
11  miráwasú    mirá    NOUN    N   Degree=Aug|Number=Sing  12  nmod:poss   _   TokenRange=58:66
12  rupitá  supitá  NOUN    N   Number=Sing|Rel=Cont    10  obj _   SpaceAfter=No|TokenRange=67:73
13  .   .   PUNCT   PUNCT   _   4   punct   _   SpaceAfter=No|TokenRange=73:74
leoalenc commented 1 month ago

dependency_tree

leoalenc commented 1 month ago
# sent_id = Avila2021:0:0:460
# text = Asuí paá ta umbué aé mayé usikari arã ximiára piripiriáka irumu.
# text_eng = Then they taught him how to look for game with piripirioca.
# text_por = Depois ensinaram-no como procurar caça com piripirioca.
# text_prim = Asuí, paá, taumbwé aé mayé usikái arã ximiara piripiriaka irumu.
# text_por_orig = Depois ensinaram para ele como procurar caça com piprioca.
# text_prim_transcriber = JLG
# text_por_orig_transcriber = JLG
# text_source = Casasnovas, 86, adap.
# text_annotator = LFdeA
# cross_reference = Casasnovas2006:8:13:81
1   Asuí    asuí    ADV ADVT    AdvType=Tim 4   advmod  _   TokenRange=0:4
2   paá paá PART    RPRT    Evident=Nfh|PartType=Mod    4   advmod  _   TokenRange=5:8
3   ta  ta  PRON    PRON    Number=Plur|Person=3|PronType=Prs   4   nsubj   _   TokenRange=9:11
4   umbué   mbué    VERB    V   Mood=Ind|Person=3|VerbForm=Fin  0   root    _   TokenRange=12:17
5   aé  aé  PRON    PRON    Number=Sing|Person=3|PronType=Prs   4   iobj    _   TokenRange=18:20
6   mayé    mayé    ADV ADVRA   AdvType=Man|PronType=Int    7   advmod  _   TokenRange=21:25
7   usikari sikari  VERB    V   Mood=Ind|Person=3|VerbForm=Fin  4   ccomp   _   TokenRange=26:33
8   arã arã SCONJ   SCONJ   _   7   mark    _   TokenRange=34:37
9   ximiára simiára NOUN    N   Number=Sing|Number[psor]=Sing|Person[psor]=3|Rel=NCont  7   obj _   TokenRange=38:45
10  piripiriáka piripiriáka NOUN    N   Number=Sing 7   obl _   TokenRange=46:57
11  irumu   irumu   ADP ADP AdpType=Post    10  case    _   SpaceAfter=No|TokenRange=58:63
12  .   .   PUNCT   PUNCT   _   4   punct   _   SpaceAfter=No|TokenRange=63:64

dependency_tree

leoalenc commented 1 month ago
# sent_id = Casasnovas2006:8:13:81
# text = Asuí, paá, taumbué aé mayé usikari arã ximiára piripiriáka irumu.
# text_eng = TODO
# text_eng_ggl = Then they taught him how to look for game with piprioca.
# text_por = Depois ensinaram para ele como procurar caça com piprioca.
# text_source = p. 86, No. 14
# text_orig = Asuí, paá, taumbwé aé mayé usikái arã ximiara piripiriaka irumu.
# text_annotator = JLG
# title = Yawaraté mira
# title_orig = Yawaraté Mira
# title_por_orig = Gente-onça
# title_eng = Jaguar people
# text_sec = Asuí paá ta umbué aé mayé usikari arã ximiára piripiriáka irumu.
# text_por_sec = Depois ensinaram-no como procurar caça com piripirioca.
# text_sec_source = Avila (2021)
# text_por_sec_source = Avila (2021)
# cross_reference = Avila2021:0:0:460
# acknowledgement = DACILAT Project, FAPESP's Process No. 2022/09158-5
# reviewer1 = Leonel Figueiredo de Alencar
# review_status = ongoing
1   Asuí    asuí    ADV ADVT    AdvType=Tim 5   advmod  _   SpaceAfter=No|TokenRange=0:4
2   ,   ,   PUNCT   PUNCT   _   3   punct   _   TokenRange=4:5
3   paá paá PART    RPRT    Evident=Nfh|PartType=Mod    5   advmod  _   SpaceAfter=No|TokenRange=6:9
4   ,   ,   PUNCT   PUNCT   _   3   punct   _   TokenRange=9:10
5   taumbué mbué    VERB    V   Mood=Ind|Number=Plur|Person=3|VerbForm=Fin  0   root    _   TokenRange=14:19
6   aé  aé  PRON    PRON    Number=Sing|Person=3|PronType=Prs   5   iobj    _   TokenRange=20:22
7   mayé    mayé    ADV ADVRA   AdvType=Man|PronType=Int    8   advmod  _   TokenRange=23:27
8   usikari sikari  VERB    V   Mood=Ind|Person=3|VerbForm=Fin  5   ccomp   _   TokenRange=28:35
9   arã arã SCONJ   SCONJ   _   8   mark    _   TokenRange=36:39
10  ximiára simiára NOUN    N   Number=Sing|Number[psor]=Sing|Person[psor]=3|Rel=NCont  8   obj _   TokenRange=40:47
11  piripiriáka piripiriáka NOUN    N   Number=Sing 8   obl _   TokenRange=48:59
12  irumu   irumu   ADP ADP AdpType=Post    11  case    _   SpaceAfter=No|TokenRange=60:65
13  .   .   PUNCT   PUNCT   _   5   punct   _   SpaceAfter=No|TokenRange=65:66

dependency_tree

leoalenc commented 1 month ago

@juliana-gurgel , esse par de sentenças tem anotação consistente, na minha definição de consistência, que abstrai de divergências meramente decorrentes de discrepâncias relacionadas a valores distintos de text. Opinião diferente?

heliolbs commented 1 month ago

[...] Ou seja, dada a exigência de paralelismo entre conjunção e parataxe, considero que no exemplo em tela temos a seguinte situação:

A, (B, C)

Desse modo, vou alterar Casasnovas2006:8:7:75 para se conformar a Avila2021:0:0:461 nesse ponto. @heliolbs, @juliana-gurgel e @dominickmaia , alguma ideia contrária?

Tendo a concordar com seu raciocínio, @leoalenc . Consultei o Grew-Match para ter uma referência dos dois padrões de parataxe na versão 2.14 do treebank. Usando a consulta abaixo, vi que há 95 ocorrências de encadeamento de parataxes (o padrão aplicado na sua análise):

pattern {
  X [upos="VERB"];
  X -[parataxis]-> Y;
  Y [upos="VERB"];
  Y -[parataxis]-> Z;
  Z [upos="VERB"]
}

Já com essa outra consulta, vi que há 14 ocorrências do padrão em que parataxes compartilham o primeiro verbo como head (aplicado pela @juliana-gurgel em Casasnovas2006:8:7:75.

pattern {
  X [upos="VERB"];
  X -[parataxis]-> Y;
  Y [upos="VERB"];
  X -[parataxis]-> Z;
  Z [upos="VERB"]
}

Como exercício de uso da biblioteca conllu, vou consultar daqui a pouco o treebank atual para saber como anda essa proporção. Desconfio que o percentual do ocorrências do seu padrão continua alta.

Seria importantíssimo verificar todas as análises de @juliana-gurgel , mesmo aquelas que já revisei, levando em conta os princípios da anotação de parataxe encaixada como em Avila2021:0:0:461.

Nós nos organizamos na reunião de hoje mais cedo para atacar essa questão. Todas as sentenças serão revisadas.

heliolbs commented 4 weeks ago

@leoalenc , consegui concluir ontem a consulta que mencionei no comentário acima. A diretriz da UD que a Juliana vinha usando é um padrão em 'paralelo', ou seja, um em que há compartilhamento de head entre as parataxes. A estrutura sugerida por você é um padrão em 'série', ou seja, um em que cada parataxe tem seu próprio head.

Minha consulta me diz que há 143 sentenças no treebank com pelo menos duas ocorrências de parataxis. Dentre elas, 62 sentenças seguem seu padrão em 'série' (encadeamento de parataxes), mas 81 têm pelo menos uma parataxe não encadeada, isto é, ou seguem o padrão em 'paralelo' ou se estruturam de forma híbrida, mesclando os dois padrões . Algumas poucas têm parataxes completamente desconectadas umas das outras (padrão em paralelo). Dessas 143 sentenças, 37 são do Casasnovas (2006): sendo 24 em paralelo e 13 em série. Vou abrir nova issue para expor meu código e documentar a investigação da aplicação dessa diretriz.

Padrão Paralelo (ou Híbrido) Série Total
Sentenças do corpus 81 (57%) 62 (43%) 143
Sentenças de Casasnovas2006 24 (65%) 13 (35%) 37

Obs.: A versão consultada foi do antepenúltimo commit. Acredito que seus dois últimos commits não afetaram esses resultados.

leoalenc commented 3 weeks ago

Inconsistência Casasnovas2006:9:8:92 ↔ Avila2021:0:0:542 resolvida em https://github.com/CompLin/nheengatu/commit/b5d7f70bf13423cc1835161269221bb984c990af. No commit, fiz referência por engano a #538 em vez de #599.

juliana-gurgel commented 3 weeks ago

Desse modo, vou alterar Casasnovas2006:8:7:75 para se conformar a `Avila2021:0:0:461nesse ponto. @heliolbs, @juliana-gurgel e @dominickmaia , alguma ideia contrária? Seria importantíssimo verificar todas as análises de @juliana-gurgel , mesmo aquelas que já revisei, levando em conta os proncípios da anotação de parataxe encaixada como emAvila2021:0:0:461.

De acordo, @leoalenc!

heliolbs commented 3 weeks ago

Inconsistência Casasnovas2006:9:8:92 ↔ Avila2021:0:0:542 resolvida em b5d7f70. No commit, fiz referência por engano a #538 em vez de #599.

A revisão incluída no commit mencionado acima foi fruto de uma discussão documentada na issue #8 de um repositório privado. Trago abaixo o resumo dessa discussão.

As duas únicas discrepâncias entre as duas sentenças do par em análise encontradas pelo dois revisores (@dominickmaia e @heliolbs ) foram os head de dois tokens. O primeiro deles é o nó 11 umusasawa, cujo head correto era o nó 5 i em vez do nó 7 umeẽ.

O segundo head a sofrer correção foi o do nó 17 nhaã no trecho "nhaã urubú kunhã-itá". Em Casasnovas2006:9:8:92, tanto nhaã quanto urubú tinham kunhã-itá como head. Já em sua referência cruzada (Avila2021:0:0:542), urubú era head de nhaã e kunhã-itá era head de urubú. Todos concordamos em passar a anotar kunhã dessa forma (compartilhamento de head) quando tiver sentido de fêmea de um animal, entretanto convém verificar se isso vem sendo no banco de árvores.

heliolbs commented 3 weeks ago

@leoalenc , o quarto par de sentenças (Casasnovas2006:9:10:94 ↔ Avila2021:0:0:198) da lista do primeiro comentário teve suas revisões registradas na issue #10 do repositório nheengabank. Seguem os dois commits de lá:

Ambos revisores concordaram com a anotação original.

dominickmaia commented 3 weeks ago

revisão do par Casasnovas2006:9:23:107 ↔ Avila2021:0:0:36 em #608

heliolbs commented 3 weeks ago

@leoalenc , a revisão do sexto par de sentenças (Casasnovas2006:9:20:104Avila2021:0:0:24) da lista do primeiro comentário está registrado neste commit do repositório nheengabank. Ambos revisores concordaram, de modo independente, com a anotação original. A discussão foi documentada em #609 .