CompLin / nheengatu

Tools and resources for the computational processing of Nheengatu (Modern Tupi)
7 stars 1 forks source link

Qual a diferença entre texto primário e texto secundário? #443

Open leoalenc opened 2 months ago

leoalenc commented 2 months ago
leoalenc commented 2 months ago

Alencar (2024, p. 43):

To facilitate treebank usage for a wide range of purposes, we provide additional metadata. We limit our discussion here to text_orig and text_prim. Both convey the verbatim text of an example when it differs from the value of text. The text_orig attribute applies to an example extracted from the source identified in the sent_id attribute (Figure 3), while text_prim indicates that the source in the sent_id attribute is not primary (Figure 2). A total of 37.43% of the treebank sentences have one or both of these attributes, which can be relevant for training or evaluating a language detector or a spelling converter.

Também relevante: https://umb.libguides.com/PrimarySources/secondary

  1. Atributo text_por: Tradução para o português original (mas com modernização ortográfica) da mesma publicação do exemplo nheengatu, no caso de publicações em língua portuguesa. Esse atributo é obrigatório.
  2. Atributo text_por_sec: Tradução para o português de uma outra publicação, opcional.
  3. Atributo text_por_alt: Tradução alternativa, opcional.
  4. Atributo text_por_orig: Tradução original, quando text_por contiver alguma correção óbvia.
leoalenc commented 2 months ago

# sent_id = Amorim1928:33:132:132 # text = Ariré paá usemu yepé Kurupira tuyué ukara kití, sesá uyusikindawa uri uikú, ape ana tenhẽ aintá uyuká aé kuidarú-pe. # text_eng = Then, they say, an old Curupira came out, his eyes were closing, and then they killed him with a kuidaru club. # text_por = Depois, contam, saiu um Curupira velho para fora, seus olhos se vinham fechando, aí já mesmo eles o mataram de cuidaru. # text_por_orig = Depois, contam, saiu um Curupira velho para fora, seus olhos se vinham fechando, aí já mesmo eles o mataram de caidaru. # text_source = p. 474, No. 32 # text_orig = Ariré paa osemo iepé Kurupira tuiue okara ketŷ, sesá oiusekendau ure oiku, ape ana tenhé aetá oiuká aé kuidaru pe. # text_orig_transcriber = Maslova (2018:119) # text_annotator = LFdeA

leoalenc commented 2 months ago

@heliolbs , @dominickmaia , @juliana-gurgel , dúvidas? Contribuições?

leoalenc commented 2 months ago

# sent_id = Hartt1938:0:0:41 # text = Maã yasí taá kwaá? # text_eng = What month are we in? # text_por = Em que mês estamos? # text_por_alt = Que mês é este? # text_por_alt_translator = LFdeA # text_source = p. 322, No. 41 # text_orig = maé yasy taé kuaé? # text_annotator = DMA # reviewer = LFdeA # inputline = Maã/int yasí/@ taá kwaá/demx?

O atributo text sem um identificador de língua refere-se sempre ao nheengatu. Os vários tipos de textos em nheengatu bem como atributos desses textos são codificados por meio de abreviaturas sufixadas a esse atributo, por exemplo:

  1. orig é o texto original com referência ao valor de sent_id, no caso do exemplo, Hart (1938).
  2. source informa a fonte do exemplo, no caso, página e número; subentende-se que a publicação é Hart (1938).

O O atributo text pode combinar-se com identificadores de línguas: text_por, text_eng etc., que, por sua vez, combinam-se com orig, prim etc. Para entender esses atributos, @heliolbs , é importante comparar exemplos do treebank com os exemplos nas publicações citadas.

heliolbs commented 2 months ago

Obrigado pelas explicações e pelos exemplos, @leoalenc . Tratar de Studart (1926) desde a etapa da coleta até a anotação está sendo uma ótima oportunidade de entender mais profundamente a relação entre os atributos dos metadados. Por ora, não tenho nenhuma dúvida.