redigir documentação dos metadados em uso nas sentenças do corpus

heliolbs commented 5 months ago

Atualmente, há pelo menos 74 atributos diferentes sendo utilizados na seção de metadados das sentenças do corpus, cada um com sua função específica. A compreensão do comportamento desses atributos e da relação entre eles é fundamental tanto para quem consulta o corpus quanto, sobretudo, para quem está envolvido em sua construção. A centralização da descrição de todos eles seria de grande utilidade na manutenção do repositório:

[ ] atualizar levantamento dos atributos em uso
[ ] categorizar os atributos visando a divisão do documento em seções
[ ] elencar atributos já descritos nas publicações mais recentes (por exemplo ALENCAR, 2024) e issues do repositório
[ ] redigir primeira versão da documentação de atributos do subconjunto acima, com ao menos um exemplo para cada atributo explicado e ao menos uma referência cruzada
[ ] corrigir erros e validar a primeira versão da documentação
[ ] redigir a documentação completa

leoalenc commented 4 months ago

@heliolbs , veja #434 . O ideal é escrever código em Python que sirva, ao mesmo tempo, para automatizar a inserção de metadados, validação e geração da documentação em um formato amigável a humanos sem conhecimentos de programação. O módulo Metadata constitui um exemplo dessa abordagem.

leoalenc commented 2 months ago

@heliolbs , neste commit esbocei o que imagino seja a abordagem mais produtiva para documentar e validar os metadados. Adotei um princípio fundamental em programação, extremamente caro à linguística computacional: a separação entre modelagem do conhecimento (descrição das várias propriedades dos metadados) e algoritmos de processamento, como o validador de anotação (uma terceira camada de validação de que precisamos depois do validator.py e do verificador de erros do udapy) e gerador de texto da documentação. Falta muita coisa e há certamente inconsistências com a prática atual do treebank. Cabe agora a você continuar o trabalho nas várias dimensões.

CompLin / nheengatu

redigir documentação dos metadados em uso nas sentenças do corpus #444