cpdoc / dhbb-nlp

processamentos DHBB
Other
5 stars 2 forks source link

First release in UD #82

Open wellington36 opened 2 years ago

wellington36 commented 2 years ago

Lançamento UD (passo a passo)

Para lançamendo do DHBB1.0.0 no UniversalDependencies faremos uma sequência de passos bem definida com intuito de documentação e organização das tarefas (tais passos podem ser modificados com o tempo).

Passo 1 - Detectar questões nos dados brutos que podem influenciar futuramente (tabela, ...) e elaborar uma metodologia de tratamento

Passo 2 - Fazer um split das sentenças (openlp)

Passo 3 - Treinar o UdPipe1.2 com Bosque2.9

Passo 4 - Como vamos organizar as sentenças.

Passo 5 - Rodar o modelo no DHBB1.0.0 todo (ou numa sample para teste)

Passo 6 - Listar erros encontrados (podem ser muitos)

Passo 7 - Lançamento

wellington36 commented 2 years ago

@arademaker, podemos editar o cometário inicial conforme prosseguimos.

wellington36 commented 2 years ago

@arademaker, do passo 1 que mencionei acima:

tabelas: 2 tabelas em 5753.text e 1 em 5919.text (identificadas por grep "|" *), aqui uma tabela pode ter uma estrutura que não possamos identificar (possível solução: estabelecer uma estrutura identificavel com quem produz os dados, dado que este tópico é de interresse mútuo)

Eu considero a solução que eu propus ou supor que grep "|" * pode encontrar todas as tabelas e demove-las na mão (como um plano b a solução inicial)

aspas francesa: Não é comum no português, uma ferramenta que treina usando nosso corpus pode ter dificuldade em parsear uma aspas normal " pela sua não ocorrência no corpus.

Esse pode não ser um problema grande dado que " é uma pontuação e "talvez" não interfira na utilização por ferramentas (isso deve ser testado futuramente).

issues DHBB e dhbb-nlp: https://github.com/cpdoc/dhbb/issues e https://github.com/cpdoc/dhbb-nlp/issues.

Ainda estou investigando alguns issues mas no geral eles parecem mais desenvolver linhas de trabalho e problemas em cima dessas linhas do que problemas que necessariamente vamos enfrentar (mas alguns issues podem servir como consulta do que já foi testado e feito anteriormente)