CompLin / nheengatu

Tools and resources for the computational processing of Nheengatu (Modern Tupi)
7 stars 2 forks source link

`text_eng`, `text_eng_ggl`, `text_por`, `text_por_orig` etc. em `Casasnovas2006` #478

Closed leoalenc closed 3 months ago

leoalenc commented 3 months ago

Uniformizar atributos de metadados exemplos de Casasnovas (2006) com text_annotator = JLG (#353):

Relaciona-se também com issues anteriores sobre text_por etc.

leoalenc commented 3 months ago

O atributo text_eng contém uma tradução em inglês da tradução para o português (text_por) do valor de text, ou seja, o texto nheengatu objeto da análise no formato CoNNL-U. Alencar (2024) explica a finalidade de text_eng. Obrigatório no início da construção do treebank, esse atributo agora é opcional.

Via de regra, text_eng é gerado pelo Yauti via tradutor do Google. Nos textos com o prefixo de sent_id MooreFP1994, a tradução em inglês, via de regra, é a que consta na publicação respectiva, a saber:

@inproceedings{moore-facundes-pires-1994-verbose,
address = {Berkeley, CA},
author ="Moore, Denny and Facundes, Sidney and Pires, Nádia",
booktitle = {Proceedings of the Meeting of the Society for the Study of the Indigenous languages of the Americas, July 2-4, 1993 and the Hokan-Penutian workshop, July 3, 1993},
keywords = {18.91 American Indian languages},
language = {eng},
publisher = {[University of California]},
series = {Report / Survey of California and other Indian Languages ; 8},
url="https://escholarship.org/uc/item/7tb981s1",
title = {Nheengatu ({L}íngua {G}eral {A}mazônica), its History, and the Effects of Language Contact},
pages = "93--118",
year = {1994},
}

Muitas vezes, a tradução automática contém erros, que são corrigidos silenciosamente pelo anotador ou revisor. Recentemente, temos usado text_eng_ggl para armazenar a tradução gerada pelo tradutor do Google, quando apresenta erros importantes. Nesse caso, text_eng contém a tradução corrigida pelo anotador ou revisor.

Note que o foco do treebank não é tradução. Desse modo, temos três situações no momento:

  1. Sentenças apenas com text_eng, tradução que pode ter sido feita pelo Google ou não, podendo conter erros em ambas as hipóteses.
  2. Sentenças com text_eng e text_eng_ggl, sendo a primeira a versão corrigida da segunda.
  3. Sentenças sem tradução para o inglês.
leoalenc commented 3 months ago

@juliana-gurgel , diante do exposto, eu pergunto sobre o uso de text_eng_ggl nas sentenças de Casasnovas (2006). Trata-se de tradução do Google sem revisão?

leoalenc commented 3 months ago

@juliana-gurgel , diante do exposto, eu pergunto sobre o uso de text_eng_ggl nas sentenças de Casasnovas (2006). Trata-se de tradução do Google sem revisão?

Em comunicação pessoal, @juliana-gurgel me confirmou que se trata de tradução do Google sem revisão.

leoalenc commented 3 months ago

Relaciona-se com #421 e #425.