Open heliolbs opened 5 months ago
@heliolbs , veja #434 . O ideal é escrever código em Python que sirva, ao mesmo tempo, para automatizar a inserção de metadados, validação e geração da documentação em um formato amigável a humanos sem conhecimentos de programação. O módulo Metadata
constitui um exemplo dessa abordagem.
@heliolbs , neste commit esbocei o que imagino seja a abordagem mais produtiva para documentar e validar os metadados. Adotei um princípio fundamental em programação, extremamente caro à linguística computacional: a separação entre modelagem do conhecimento (descrição das várias propriedades dos metadados) e algoritmos de processamento, como o validador de anotação (uma terceira camada de validação de que precisamos depois do validator.py
e do verificador de erros do udapy
) e gerador de texto da documentação.
Falta muita coisa e há certamente inconsistências com a prática atual do treebank. Cabe agora a você continuar o trabalho nas várias dimensões.
Atualmente, há pelo menos 74 atributos diferentes sendo utilizados na seção de metadados das sentenças do corpus, cada um com sua função específica. A compreensão do comportamento desses atributos e da relação entre eles é fundamental tanto para quem consulta o corpus quanto, sobretudo, para quem está envolvido em sua construção. A centralização da descrição de todos eles seria de grande utilidade na manutenção do repositório: