Open leoalenc opened 2 months ago
Alencar (2024, p. 43):
To facilitate treebank usage for a wide range of purposes, we provide additional metadata. We limit our discussion here to text_orig and text_prim. Both convey the verbatim text of an example when it differs from the value of text. The text_orig attribute applies to an example extracted from the source identified in the sent_id attribute (Figure 3), while text_prim indicates that the source in the sent_id attribute is not primary (Figure 2). A total of 37.43% of the treebank sentences have one or both of these attributes, which can be relevant for training or evaluating a language detector or a spelling converter.
Também relevante: https://umb.libguides.com/PrimarySources/secondary
text_por
: Tradução para o português original (mas com modernização ortográfica) da mesma publicação do exemplo nheengatu, no caso de publicações em língua portuguesa. Esse atributo é obrigatório.text_por_sec
: Tradução para o português de uma outra publicação, opcional.text_por_alt
: Tradução alternativa, opcional.text_por_orig
: Tradução original, quando text_por
contiver alguma correção óbvia.# sent_id = Amorim1928:33:132:132 # text = Ariré paá usemu yepé Kurupira tuyué ukara kití, sesá uyusikindawa uri uikú, ape ana tenhẽ aintá uyuká aé kuidarú-pe. # text_eng = Then, they say, an old Curupira came out, his eyes were closing, and then they killed him with a kuidaru club. # text_por = Depois, contam, saiu um Curupira velho para fora, seus olhos se vinham fechando, aí já mesmo eles o mataram de cuidaru. # text_por_orig = Depois, contam, saiu um Curupira velho para fora, seus olhos se vinham fechando, aí já mesmo eles o mataram de caidaru. # text_source = p. 474, No. 32 # text_orig = Ariré paa osemo iepé Kurupira tuiue okara ketŷ, sesá oiusekendau ure oiku, ape ana tenhé aetá oiuká aé kuidaru pe. # text_orig_transcriber = Maslova (2018:119) # text_annotator = LFdeA
@heliolbs , @dominickmaia , @juliana-gurgel , dúvidas? Contribuições?
# sent_id = Hartt1938:0:0:41 # text = Maã yasí taá kwaá? # text_eng = What month are we in? # text_por = Em que mês estamos? # text_por_alt = Que mês é este? # text_por_alt_translator = LFdeA # text_source = p. 322, No. 41 # text_orig = maé yasy taé kuaé? # text_annotator = DMA # reviewer = LFdeA # inputline = Maã/int yasí/@ taá kwaá/demx?
O atributo text
sem um identificador de língua refere-se sempre ao nheengatu. Os vários tipos de textos em nheengatu bem como atributos desses textos são codificados por meio de abreviaturas sufixadas a esse atributo, por exemplo:
orig
é o texto original com referência ao valor de sent_id
, no caso do exemplo, Hart (1938). source
informa a fonte do exemplo, no caso, página e número; subentende-se que a publicação é Hart (1938).O O atributo text
pode combinar-se com identificadores de línguas: text_por
, text_eng
etc., que, por sua vez, combinam-se com orig
, prim
etc. Para entender esses atributos, @heliolbs , é importante comparar exemplos do treebank com os exemplos nas publicações citadas.
Obrigado pelas explicações e pelos exemplos, @leoalenc . Tratar de Studart (1926) desde a etapa da coleta até a anotação está sendo uma ótima oportunidade de entender mais profundamente a relação entre os atributos dos metadados. Por ora, não tenho nenhuma dúvida.