cpdoc / dhbb-nlp

processamentos DHBB
Other
5 stars 2 forks source link

golden vs RAW #63

Closed arademaker closed 3 years ago

arademaker commented 3 years ago

relacionado à tarefa https://github.com/cpdoc/test/issues/5

no commit 810e45650 introduz no repositório os arquivos golden do WKS. Identificamos uma diferença entre o 11262.raw e o conteúdo no wks/gt/0880fb70-d93b-11ea-bff2-05ea84f8fa50-0.json, arquivo referente ao 11262.raw importado para o WKS.

  1. esta diferença existe em todos os arquivos? aparentemente é apenas um \n no início.
  2. como podemos comparar de forma sistemática os arquivos para saber quando um RAW mudou (possivelmente porque o DHBB mudou, e a versão daquele arquivo no WKS precisaria ser atualizada?
  3. se estas diferenças sempre acontecem, será que podemos pensar em uma forma de 'realinhar' as strings?
arademaker commented 3 years ago

Olhando alguns casos eu tenho uma hipótese. Parece que estes documentos que foram importados para o WKS foram anteriores a uma reorganização que fiz na geração dos arquivos RAW. Anteriormente, o RAW eram apenas o output a partir dos respectivos arquivos em https://github.com/cpdoc/dhbb/tree/master/text. Mas posteriormente, identificamos que algumas ferramentas de segmentação de sentenças se perdiam quando encontravam quebras de linhas dentro de frases, caso que ocorre , por exemplo, em

https://github.com/cpdoc/dhbb/blob/master/text/1005.text

A quebra de linha na coluna ~70-80 é neste caso desejável para facilitar a comparação entre versões dos arquivos no repositório DHBB. Linhas longas seriam difíceis de comparar. Formatando o texto em ~80 colunas, o diff entre versões é mais legível. Por exemplo:

https://github.com/cpdoc/dhbb/commit/023df76169e1830cda33ac8e466a4617e0c9e0cb#diff-31249dcf5d177e851a81070466850d1ad6e0e10efa9b3da284647552614f879a

Mas no RAW o que queremos é não ter quebras de linhas dentro de frases, logo o código https://github.com/cpdoc/dhbb-nlp/blob/master/raw/extract.awk#L33 cuida de juntar linhas consecutivas que tenham algum caracter diferente de espaço. Isto é, produzem um parágrafo por linha.

eu acho que importamos para o WKS versões RAW anteriormente a este novo processamento de juntar linhas do mesmo parágrafo.... Temos que identificar os arquivos que estão neste caso e talvez remove-los do WKS e substitui-los por novos arquivos RAW.

Então esta tarefa trata de identifica estes arquivos no wks/gt que tem conteúdo diferente do respectivo RAW.

wellington36 commented 3 years ago

Temos a função verificadora de textos NLU e WKS (encontra diferença ou inexistência) no https://github.com/cpdoc/test/blob/issue-5-rev/app/NER.hs e usaremos para verificar os arquivos adicionados e corrigir os que não tem mesmo texto.

No primeiro passo tivemos: 72 - textos diferentes, 29 - não existem e 11 - textos iguais.

No segundo passo tivemos: 91 - textos diferentes e 11 textos iguais (os mesmo anteriormente).

arademaker commented 3 years ago

poderia listar aqui os casos diferentes?

wellington36 commented 3 years ago

Os casos de diferença (ordenados):

1, 8, 15, 61, 85, 148, 246, 516, 699, 788, 906, 1067, 1103, 1125, 1183, 1267, 1320, 1395, 1655, 1802, 1829, 1831, 1889, 1950, 1958, 2120, 2148, 2285, 2299, 2492, 2493, 2521, 2626, 2639, 2753, 3029, 3084, 3127, 3142, 3317, 3340, 3438, 3568, 3702, 3721, 3739, 3783, 3853, 4013, 4129, 4391, 4434, 4494, 4541, 4608, 4799, 4878, 4933, 5032, 5177, 5702, 5723, 5754, 5762, 5810, 5813, 5919, 5927, 5975, 5993, 5999, 6026, 6122, 6167, 6205, 6319, 8731, 8813, 10747, 10824, 10926, 10968, 11149, 11241, 11293, 11313, 11323, 11497, 11576, 11853, 12117

Tomei o 1.json para dar uma olhada e é aquele mesmo problema de varios "\n" no wks e poucos no nlu o texto em si parece igual isso provavelmente acontece com os outros também.

arademaker commented 3 years ago

arquivos apagados do WKS.