Closed heliolbs closed 4 months ago
Diferentemente de Hartt (1938) e Casasnovas (2016), os exemplos de Studart (1926), assim com os de Aguiar (1898) e Avila (2021), não são numerados na fonte. Além disso, os exemplos de Studart (1926) são formados tanto por sentenças quanto por não sentenças (vocábulos isolados ou sintagmas isolados). Levando esses dois fatos em conta, tenho impressão de que seria necessário e útil numerar todos os exemplos, não apenas os que são sentenças a serem anotadas e inseridas no treebank. Isso permitiria manter uma numeração consistente ao longo do tempo independentemente das decisões que fossem tomadas quanto a quais exemplos devem ser aproveitados para quais funções específicas.
Esse raciocínio faz sentido, @leoalenc ? Tenho impressão de que algo desse tipo já esteja sendo aplicado no tratamento das fontes do treebank como, por exemplo, Aguiar (1898).
@heliolbs , um treebank, por definição, possui na sentença a sua unidade básica, alvo da anotação sintática em árvore. Portanto, palavras isoladas de fontes como dicionários e treebanks não entram. É ilustrativo comparar a coleção com prefixo de sent_id
de MooreFP1994
com os exemplos do respectivo artigo, um dos melhores sobre a estrutura do nheengatu. Aliás, você pode trazer pra cá a questão que levantou sobre palavras isoladas de Studart (1926)?
Dada a escassez de dados do nheengatu, sobretudo do período histórico ou de natureza dialetal, é extremamente relevante tornar tudo disponível livremente (com o artigo de Studart) em texto puro de forma acessível ao processamento computacional. Isso seria um outro corpus ou melhor dataset. Quer fazer isso? Então extrairíamos desse dataset as sentenças.
heliolbs , um treebank, por definição, possui na sentença a sua unidade básica, alvo da anotação sintática em árvore. Portanto, palavras isoladas de fontes como dicionários e treebanks não entram. É ilustrativo comparar a coleção com prefixo de
sent_id
deMooreFP1994
com os exemplos do respectivo artigo, um dos melhores sobre a estrutura do nheengatu.
Entendido, @leoalenc . De todo modo, como sugerido, vou consultar MooreFP1994
pra aprofundar essa questão.
Aliás, você pode trazer pra cá a questão que levantou sobre palavras isoladas de Studart (1926)?
Posso sim! Eu até já estava com um rascunho da issue para transferir, mas fiquei com algumas dúvidas sobre a melhor forma de fazer isso já que já me delonguei bastante lá. Vou fazer a transferência. Caso haja algo a corrigir, a gente corrige.
Dada a escassez de dados do nheengatu, sobretudo do período histórico ou de natureza dialetal, é extremamente relevante tornar tudo disponível livremente (com o artigo de Studart) em texto puro de forma acessível ao processamento computacional. Isso seria um outro corpus ou melhor dataset. Quer fazer isso? Então extrairíamos desse dataset as sentenças.
Gostaria sim de fazer isso! Vou começar a trabalhar nisso no repositório privado heliolbs/nheengatu. Quando o dataset estiver mais maduro você o transfere para cá caso seja conveniente.
Diferentemente de Hartt (1938) e Casasnovas (2016), os exemplos de Studart (1926), assim com os de Aguiar (1898) e Avila (2021), não são numerados na fonte. Além disso, os exemplos de Studart (1926) são formados tanto por sentenças quanto por não sentenças (vocábulos isolados ou sintagmas isolados). Levando esses dois fatos em conta, tenho impressão de que seria necessário e útil numerar todos os exemplos, não apenas os que são sentenças a serem anotadas e inseridas no treebank. Isso permitiria manter uma numeração consistente ao longo do tempo independentemente das decisões que fossem tomadas quanto a quais exemplos devem ser aproveitados para quais funções específicas.
Esse raciocínio faz sentido, @leoalenc ? Tenho impressão de que algo desse tipo já esteja sendo aplicado no tratamento das fontes do treebank como, por exemplo, Aguiar (1898).