CompLin / nheengatu

Tools and resources for the computational processing of Nheengatu (Modern Tupi)
7 stars 1 forks source link

anotação e revisão coletiva de sentenças de Hartt (1938), Magalhães (1876) e Studart (1926) #575

Open leoalenc opened 1 week ago

leoalenc commented 1 week ago

Avila (2021):

Tupana resé, remeẽ maã aú arama, se yumasí reté. (Hartt, 320, adap.) - Por deus, dá-me algo para comer, estou com muita fome.; Aé uú-putari maã. (Studart, 36, adap.) - Ele quer comer algo.

Kwaá kunhamukú ti rẽ ukwáu maã resewara. (Hartt, 355, adap.) - Esta moça ainda não sabe de nada.; Se pú i karuára uikú, ti apisika-kwáu maã. (Hartt, 377, adap.) - Eu tenho reumatismo da mão, não posso pegar nada.; Aintá ti upiripana-putari maã. (Magalhães, 66, adap.) - Eles não querem comprar nada.

heliolbs commented 5 days ago

Ao nomearmos as sentenças e organizarmos o fluxo de trabalho de anotação e revisão, foram constatadas duas questões:

  1. As cinco sentenças cuja anotação foi solicitada já possuem sentenças equivalentes, mais ou menos similares, incluídas no treebank:
Sentença a ser incluída Equivalente já presente no treebank
Studart1926:3660:0:36550 Avila2021:0:0:534
Hartt1938:0:0:436 Avila2021:0:0:448
Hartt1938:0:0:502 Avila2021:0:0:535
Hartt1938:0:0:800 Avila2021:0:0:536
Magalhaes1876:1-12:0:151 Avila2021:0:0:537
  1. A normalização ortográfica de Studart1926:3660:0:36550 (id provisório) se mostrou idêntica a sua equivalente Avila2021:0:0:534, já presente no treebank. Levando em conta recomendações passadas, decidimos não anotar a sentença idêntica mas apenas revisar a sentença já incorporada e adicionar a ela os metadados pertinentes.

Desse modo, o fluxo de trabalho tomou a seguinte forma:

Sentença\Etapa Anotação Revisão1 Revisão 2
Avila2021:0:0:534 Leonel ✔ Hélio ✔ Dominick ✔
Hartt1938:0:0:436 Dominick ✔ Hélio ✔ Leonel ⌛
Avila2021:0:0:448 Leonel ✔ Dominick ✔ Hélio ✔
Hartt1938:0:0:502 Dominick ✔ Hélio ✔ Leonel ⌛
Avila2021:0:0:535 Leonel ✔ Dominick ✔ Hélio ✔
Hartt1938:0:0:800 Dominick ✔ Hélio ✔ Leonel ⌛
Avila2021:0:0:536 Leonel ✔ Dominick ✔ Hélio ✔
Magalhaes1876:1-12:0:151 Hélio ✔ Dominick ✔ Leonel ⌛
Avila2021:0:0:537 Leonel ✔ Dominick ✔ Hélio ✔

✔ Concluído ⌛ Pendente

heliolbs commented 5 days ago

@leoalenc , neste commit se encontra a dupla revisão de Avila2021:0:0:534, uma das sentenças que já se se encontravam anotadas no treebank.

Eu e @dominickmaia concordamos com a anotação original e não vimos necessidade de nenhuma alteração. Entretanto, pareceu-nos pertinente incluir, além de reviewer1, reviewer2 e inputline, outros três metadados. Segue a lista completa de adições:

# text_prim = Ahé ú putare mahã.
# text_por_prim = Elle quer comer alguma cousa
# text_prim_source = Studart, 36
# reviewer1 = Hélio Leonam Barroso Silva
# reviewer2 = Dominick Maia Alexandre
# inputline = Aé/pron uú-putari maã/ind.
heliolbs commented 5 days ago

@leoalenc , neste commit consta a dupla revisão de Avila2021:0:0:448 assim como a anotação e revisão de Hartt1938:0:0:436.

Na dupla revisão de Avila2021:0:0:448, resolvemos manualmente a ambiguidade do atributo Mood da forma remeẽ. Além disso, incluímos os seguintes metadados:

Em Hartt1938:0:0:436, temos as formas arcaicas emeẽ e xaú, que constam em Avila2021:0:0:448 como suas formas modernas remeẽ e . Acreditamos que tenha sido fruto da adaptação feita por Ávila (2021). Além disso, chamamos atenção para nosso uso dos metadados text_sec, text_sec_source e cross_reference na anotação e na revisão dessa sentença.

heliolbs commented 5 days ago

@leoalenc , neste commit constam a dupla revisão de Avila2021:0:0:535 assim como a anotação e revisão de Hartt1938:0:0:502.

Na dupla revisão de Avila2021:0:0:535, incluímos os seguintes metadados:

Em Hartt1938:0:0:502, temos as variantes intí e ranhẽ, que constam em Avila2021:0:0:535 como as variantes ti e rẽ. Acreditamos que tenha sido fruto da adaptação feita por Ávila (2021). Além disso, chamamos atenção para nosso uso dos metadados text_sec, text_sec_source e cross_reference na anotação e na revisão dessa sentença.

heliolbs commented 5 days ago

@leoalenc , neste commit constam a dupla revisão de Avila2021:0:0:536 assim como a anotação e revisão de Hartt1938:0:0:800.

Na dupla revisão de Avila2021:0:0:536, incluímos os seguintes metadados:

Note que o metadado text_por_prim não foi incluído, pois a tradução para o português na fonte primária é idêntica à da fonte secundária.

Em Hartt1938:0:0:800, temos as formas intí e xapisika, que constam em Avila2021:0:0:536 como as variantes ti e a forma moderna apisika. Acreditamos que tenha sido fruto da adaptação feita por Ávila (2021). Além disso, chamamos atenção para nosso uso dos metadados text_sec, text_sec_source e cross_reference na anotação e na revisão dessa sentença.

heliolbs commented 4 days ago

@leoalenc , neste commit constam a dupla revisão de Avila2021:0:0:537 assim como a anotação e revisão de Magalhaes1876:1-12:0:151.

Na dupla revisão de Avila2021:0:0:537, incluímos os seguintes metadados:

Note que o metadado text_por_prim não foi incluído, pois a tradução para o português na fonte primária é idêntica à da fonte secundária.

O valor do atributo sent_id de Magalhaes1876:1-12:0:151 foi composto por analogia com o da sentença Magalhaes1876:1-12:0:101. A função translate do script Magalhaes.py foi usada para converter as combinações de caracteres especiais e preencher o valor do atributo text_orig de Magalhaes1876:1-12:0:151. A variante intí dessa sentença foi substituída por Ávila (2021) por uma variante, por isso consta em Avila2021:0:0:537 como ti. Acreditamos que tenha sido fruto da adaptação feita por Ávila (2021). Além disso, chamamos atenção para nosso uso dos metadados text_sec, text_sec_source e cross_reference na anotação e na revisão dessa sentença.