Closed leoalenc closed 3 months ago
O atributo text_eng
contém uma tradução em inglês da tradução para o português (text_por
) do valor de text
, ou seja, o texto nheengatu objeto da análise no formato CoNNL-U. Alencar (2024) explica a finalidade de text_eng
. Obrigatório no início da construção do treebank, esse atributo agora é opcional.
Via de regra, text_eng
é gerado pelo Yauti via tradutor do Google. Nos textos com o prefixo de sent_id
MooreFP1994, a tradução em inglês, via de regra, é a que consta na publicação respectiva, a saber:
@inproceedings{moore-facundes-pires-1994-verbose,
address = {Berkeley, CA},
author ="Moore, Denny and Facundes, Sidney and Pires, Nádia",
booktitle = {Proceedings of the Meeting of the Society for the Study of the Indigenous languages of the Americas, July 2-4, 1993 and the Hokan-Penutian workshop, July 3, 1993},
keywords = {18.91 American Indian languages},
language = {eng},
publisher = {[University of California]},
series = {Report / Survey of California and other Indian Languages ; 8},
url="https://escholarship.org/uc/item/7tb981s1",
title = {Nheengatu ({L}íngua {G}eral {A}mazônica), its History, and the Effects of Language Contact},
pages = "93--118",
year = {1994},
}
Muitas vezes, a tradução automática contém erros, que são corrigidos silenciosamente pelo anotador ou revisor. Recentemente, temos usado text_eng_ggl
para armazenar a tradução gerada pelo tradutor do Google, quando apresenta erros importantes. Nesse caso, text_eng
contém a tradução corrigida pelo anotador ou revisor.
Note que o foco do treebank não é tradução. Desse modo, temos três situações no momento:
text_eng
, tradução que pode ter sido feita pelo Google ou não, podendo conter erros em ambas as hipóteses.text_eng
e text_eng_ggl
, sendo a primeira a versão corrigida da segunda.@juliana-gurgel , diante do exposto, eu pergunto sobre o uso de text_eng_ggl
nas sentenças de Casasnovas (2006). Trata-se de tradução do Google sem revisão?
@juliana-gurgel , diante do exposto, eu pergunto sobre o uso de
text_eng_ggl
nas sentenças de Casasnovas (2006). Trata-se de tradução do Google sem revisão?
Em comunicação pessoal, @juliana-gurgel me confirmou que se trata de tradução do Google sem revisão.
Relaciona-se com #421 e #425.
Uniformizar atributos de metadados exemplos de Casasnovas (2006) com
text_annotator = JLG
(#353):text_eng
text_eng_ggl
no treebanktext_eng = TODO
nos exemplos das Lendas de Casasnovas (2006) comtext_annotator = JLG
etext_eng_ggl
que não contenhamtext_eng
text_por_orig
dos exemplos das Lendas de Casasnovas (2006) comtext_annotator = JLG
que não contenhamtext_por
, inserindotext_por
no lugartext_adapter
,text_orig_transcriber
etext_orig_transcriber
dos exemplos das Lendas de Casasnovas (2006) comtext_annotator = JLG
src
, script em Python capaz de fazer essas mudançasRelaciona-se também com issues anteriores sobre
text_por
etc.