Conllu x JSON sentences

wellington36 commented 3 years ago

Respectivamente Sentença no Conllu (udp-mini) e no respectivo JSON, que estão diferentes (5 sentenças no total).

Caso 1 (Doc 4287), a primeira tem um espaço e a segunda um \n:

"Em 1902 diplomou-se em ci\234ncias jur\237dicas e sociais pela Faculdade Livre de Direito da Bahia, tendo sido nomeado em 1903 promotor p\250blico de Mata de S\227o Jo\227o (BA) e, posteriormente, da comarca de Alagoinhas (BA), Auditor de guerra do 1\186 Distrito Militar em abril de 1904 e do 4\186 Distrito Militar em dezembro de 1905, foi designado em julho de 1911 para o mesmo cargo na 5\170 Regi\227o Militar (RM) em Curitiba."

"Em 1902 diplomou-se em ci\234ncias jur\237dicas e sociais pela Faculdade Livre de Direito da Bahia, tendo sido nomeado em 1903 promotor p\250blico de Mata de S\227o Jo\227o (BA) e, posteriormente, da comarca de Alagoinhas (BA),\nAuditor de guerra do 1\186 Distrito Militar em abril de 1904 e do 4\186 Distrito Militar em dezembro de 1905, foi designado em julho de 1911 para o mesmo cargo na 5\170 Regi\227o Militar (RM) em Curitiba."
Case 2 (Doc 5751), a primeira tem "\8221." e a segunda ".\8221":

"O n\250mero 20 marcou tamb\233m a ado\231\227o das cores azul e vermelha e a supress\227o do subt\237tulo que aparecia impresso at\233 ent\227o: \8220Seu jornal, sua defesa, sua liberdade\8221."

"O n\250mero 20 marcou tamb\233m a ado\231\227o das cores azul e vermelha e a supress\227o do subt\237tulo que aparecia impresso at\233 ent\227o: \8220Seu jornal, sua defesa, sua liberdade.\8221"
Case 3 (Doc 5751), a primeira tem "\8221." e a segunda ".\8221":

"\8220Se a lei for votada tal como se apresentou em seu primeiro dia de vida legislativa, n\227o creio que um jornal com as caracter\237sticas de \171Brasil em Marcha\187, com a sua independ\234ncia, a sua altivez, poder\225 continuar a circular\8221."

"\8220Se a lei for votada tal como se apresentou em seu primeiro dia de vida legislativa, n\227o creio que um jornal com as caracter\237sticas de \171Brasil em Marcha\187, com a sua independ\234ncia, a sua altivez, poder\225 continuar a circular.\8221"
Case 4 (Doc 10964), a primeira tem "Constitucional" e a segunda "Cconstitucional":

"Em dezembro desse mesmo ano, ausentou-se na vota\231\227o em segundo turno da Emenda Constitucional n\176 41, que propunha a reforma da previd\234ncia."

"Em dezembro desse mesmo ano, ausentou-se na vota\231\227o em segundo turno da Emenda Cconstitucional n\176 41, que propunha a reforma da previd\234ncia."
Case 5 (Doc 11335), a primeira tem ", e" e a segunda ". E":

"Posteriormente, exerceu cargos de destaque no Minist\233rio do Bem-Estar Social e no Minist\233rio do Planejamento, Or\231amento e Gest\227o, no qual foi secret\225rio-adjunto da Secretaria de Or\231amento Federal por seis anos."

"Posteriormente. Exerceu cargos de destaque no Minist\233rio do Bem-Estar Social e no Minist\233rio do Planejamento, Or\231amento e Gest\227o, no qual foi secret\225rio-adjunto da Secretaria de Or\231amento Federal por seis anos."

wellington36 commented 3 years ago

Nos Casos 1, 2 e 3 o que está no JSON bate com o raw e nos Casos 4 e 5 o que está no Conllu bate com o raw.

arademaker commented 3 years ago

O caso 1 no JSON é

E parece que a segmentação em sentenças do NLU errou:

Mas estamos ignorando isso né? No JSON do NLU olhamos apenas o analyzed_text e os spans dos tokens. A segmentação do conllu está certa, mas temos um problema extra, o caracter de quebra de linha antes da palavra Auditor nao foi preservado no conllu:

Realmente temos que pensar melhor neste problema... estes. \n extras vão atrapalhar toda a contagem..

wellington36 commented 3 years ago

O caso 4 eu tinha reportado a um tempo talvez tenha corrigido em um e no outro manteve o erro.

arademaker commented 3 years ago

O caso 2 é também revelador:

Veja que no topo deste arquivo conllu, temos # newdoc id = sents/5751.sent ou seja, ele foi produzido a partir de um arquivo .sent. Já o JSON foi produzido a partir do RAW:

Então no RAW temos as aspas depois do ponto:

Mas por alguma razão, o .sent usado pelo UDPipe tinha estas aspas antes do ponto... isto pode ter sido alguma edição manual do sent antes de processarmos ele com UDPipe? Ou talvez o RAW tenha sido modificado depois? Novamente, precisamos rever nosso fluxo de dados.

wellington36 commented 3 years ago

Nesse caso 2, acredito que tenha sido uma edição manual faz sentido uma sentença terminar com aspar? (Note que o caso 3 é identico ao 2)

wellington36 commented 3 years ago

Do Caso 5 no udp/11335.conllu está assim (Note que, a segmentação está errada):

(removed by @arademaker)

No 11335.raw, 11335.sents e udp-mini/11335.conllu também aparece com ", e" em fez de ". E", porém tanto no ner/11335.json e no udp/11335.json aparece com ". E".

wellington36 commented 3 years ago

No caso 4 temos algo parecido com o caso 5, nos 10964.raw, 10964.sents e udp-mini/10964.conllu está como "Constitucional" e nos ner/10964.json e udp/10964.conllu está "Cconstitucional".

Assim é provavel que tanto nos casos 4 e 5 houve uma correção do texto que não foi passada para os ner/*.json e udp/*.conllu.

wellington36 commented 3 years ago

Ainda sobre o caso 4 encontrei o momento da alteração 466a97be8e9e16bd8e8023d436542e9eb313524f.

arademaker commented 3 years ago

Ja corrigido no DHBB.

wellington36 commented 3 years ago

Do caso 5 também encontrei algo interessante no commit 9653975f245504172147f33bdd8c90bb282e84cd o arquivo 11335.sent foi convertido para 11335.offset antes da conversão estava com ". E" e proximo commit 37d20381e4a6b4c48497de5c22d6e28479333079 foi convertido de novo de 11335.offset para 11335.sent nesse momento ele passou a estar com ", e".

arademaker commented 3 years ago

Como vc deve ter visto pelos comentários no DHBB e últimos commits no DHBB-NLP, muitos arquivos foram corrigidos, então sinceramente acho que esta sua investigação agora não faz mais sentido. Eu tenho agora no sents todos os arquivos segmentados para nova analise sintática. Encontrei vários erros de segmentação e corri manualmente. Em vários casos, a segmentação errou por haver erros nos dados, por isso também corrigi no DHBB o que eu pude.

O plano agora será esperar os issues do DHBB serem corrigidos, rodar novamente a segmentação, observar as diferenças em relação ao que estiver agora no sents e então gerar novamente os conllu.

wellington36 commented 3 years ago

Entendo.

cpdoc / dhbb-nlp

Conllu x JSON sentences #79

Respectivamente Sentença no Conllu (udp-mini) e no respectivo JSON, que estão diferentes (5 sentenças no total).