CompLin / nheengatu

Tools and resources for the computational processing of Nheengatu (Modern Tupi)
7 stars 2 forks source link

redigir documentação dos metadados em uso nas sentenças do corpus #444

Open heliolbs opened 5 months ago

heliolbs commented 5 months ago

Atualmente, há pelo menos 74 atributos diferentes sendo utilizados na seção de metadados das sentenças do corpus, cada um com sua função específica. A compreensão do comportamento desses atributos e da relação entre eles é fundamental tanto para quem consulta o corpus quanto, sobretudo, para quem está envolvido em sua construção. A centralização da descrição de todos eles seria de grande utilidade na manutenção do repositório:

leoalenc commented 4 months ago

@heliolbs , veja #434 . O ideal é escrever código em Python que sirva, ao mesmo tempo, para automatizar a inserção de metadados, validação e geração da documentação em um formato amigável a humanos sem conhecimentos de programação. O módulo Metadata constitui um exemplo dessa abordagem.

leoalenc commented 2 months ago

@heliolbs , neste commit esbocei o que imagino seja a abordagem mais produtiva para documentar e validar os metadados. Adotei um princípio fundamental em programação, extremamente caro à linguística computacional: a separação entre modelagem do conhecimento (descrição das várias propriedades dos metadados) e algoritmos de processamento, como o validador de anotação (uma terceira camada de validação de que precisamos depois do validator.py e do verificador de erros do udapy) e gerador de texto da documentação. Falta muita coisa e há certamente inconsistências com a prática atual do treebank. Cabe agora a você continuar o trabalho nas várias dimensões.