cpdoc / dhbb-nlp

processamentos DHBB
Other
5 stars 2 forks source link

Wrong sentence in 4287 #80

Open wellington36 opened 3 years ago

wellington36 commented 3 years ago

Segunda sentença do https://github.com/cpdoc/dhbb-nlp/blob/master/udp-mini/4287.conllu segmentada errada (trocou "\n" por espaço):

> sent_id = 2
> text = Em 1902 diplomou-se em ciências jurídicas e sociais pela Faculdade Livre de Direito da Bahia, tendo sido nomeado em 1903 promotor público de Mata de São João (BA) e, posteriormente, da comarca de Alagoinhas (BA), Auditor de guerra do 1º Distrito Militar em abril de 1904 e do 4º Distrito Militar em dezembro de 1905, foi designado em julho de 1911 para o mesmo cargo na 5ª Região Militar (RM) em Curitiba.
arademaker commented 3 years ago

Eu não entendi... mas não precisa copiar o conteúdo do conllu, basta apontar.

wellington36 commented 3 years ago

Apontar o problema? (Acho que entendi)

wellington36 commented 2 years ago

Segunda sentença do https://github.com/cpdoc/dhbb-nlp/blob/master/udp-mini/4287.conllu segmentada errada (trocou "\n" por espaço):

> sent_id = 2
> text = Em 1902 diplomou-se em ciências jurídicas e sociais pela Faculdade Livre de Direito da Bahia, tendo sido nomeado em 1903 promotor público de Mata de São João (BA) e, posteriormente, da comarca de Alagoinhas (BA), Auditor de guerra do 1º Distrito Militar em abril de 1904 e do 4º Distrito Militar em dezembro de 1905, foi designado em julho de 1911 para o mesmo cargo na 5ª Região Militar (RM) em Curitiba.

A questão aqui era que essa sentença na verdade são as linhas 2 e 3 em https://github.com/cpdoc/dhbb-nlp/blob/master/sents/4287.sent, ou seja, houve uma inconsistencia entre o artivo sents e o udp-mini.