cpdoc / dhbb

Dicionário Histórico Biográfico Brasileiro
Other
10 stars 2 forks source link

conferir parágrafo #19

Closed arademaker closed 3 years ago

arademaker commented 6 years ago

@suemi-higuchi veja a correção que fiz agora no arquivo f3f51273b46f19178c0ad82039c4dff2df1d4125

Vc pode depois conferir este parágrafo para tentarmos entender o que gerou este lixo que removi? Tenho receio de ter removido alguma informação relevante.

suemi-higuchi commented 6 years ago

Não removeu. Na verdade havia mesmo informação aí (referência a uma nota de rodapé) mas sumiu quando a TIC levou o texto para a base de dados: http://www.fgv.br/cpdoc/acervo/dicionarios/verbete-biografico/antonio-salim-curiati. Esse "msocom" é com certeza um lixo que sobrou da conversão Word --> html. Dá uma olhada também no 1625.ref!

arademaker commented 6 years ago

@suemi-higuchi ok, no ref também tinha lixo que limpei no commit 2020f35e8. Mas vai ficar assim? Houve efetivamente perda do conteúdo da nota de rodapé e assim ficará?

Neste mesmo commit 2020f35e8, fiz novas correções. Ocorrências do símbolo _ que pareciam erros. Veja lá se concorda e se preservei o conteúdo informacional. Note a frase no 4881:

Como a Emenda não obteve o número de votos indispensáveis à sua aprovação, faltaram 22 para que o projeto pudesse ser encaminhado à apreciação pelo Senado Federal, no Colégio Eleitoral reunido em 15 de janeiro de 1985 Luís Carlos Santos, delegado da Assembléia Legislativa de São Paulo, votou no candidato oposicionista Tancredo Neves, eleito pela Aliança Democrática, união do PMDB com a dissidência do Partido Democrático Social (PDS) abrigada na Frente Liberal.

Merecia ser reescrita né? Que frase longa e complicada. Que tal ver com a equipe do DHBB se eles concordam em reescrever?

arademaker commented 4 years ago

Existem várias outras sentenças incompletas ou sem ponto final. Corrigi alguns casos em fb4244a3e usando o bom senso e tentando não perder dados mas tornando as sentenças completas.

Mas tem casos como https://github.com/cpdoc/dhbb/blob/master/text/1013.text#L40.

@suemi-higuchi alguém para ajudar se eu gerar um relatório?

arademaker commented 4 years ago

casos de pontos faltantes: d3e4253fb, 4e91a43a6, e75345daf

arademaker commented 4 years ago

alguns casos de frases que terminam com : mas no parágrafo seguinte temos uma nova seção marcada em markdown com ##

suemi-higuchi commented 4 years ago

Revi/corrigi as questões q faltavam apontadas acima (b549ebf1d94d722fa51f1825e6c56455ac56ba29). Está aberto apenas o caso de : em https://github.com/cpdoc/dhbb/blob/master/text/6321.text#L672 pois se trata da ausência de algumas tabelas. A equipe está avaliando.

arademaker commented 3 years ago

Mais um caso:

2853.text linha 202 começa com:

'e9 de Magalhães Pinto e o senador Tancredo Neves. Com a incorporação do

arademaker commented 3 years ago

@suemi-higuchi vc poderia tentar me ajudar a fechar este e outros issues? @jaquepz ?

suemi-higuchi commented 3 years ago

Todos os verbetes mencionados neste issue foram revistos. Alguns já tinham sido corrigidos anteriormente e hoje fechamos o que faltava. Editamos bastante coisa do 4881 (por isso precisará refazer as quebras de linha) e alguns trechos do 6321 onde constavam tabelas no arquivo original. @arademaker , quando vc der um merge do request que acabei de fazer, sinaliza o commit aqui.

arademaker commented 3 years ago

commit 9fc20446a4fb42c98d40d8f5d7038a24a1ba69a4 fecha este issue

arademaker commented 3 years ago

O arquivo 6321 tem alguns encodes estranhos:

image

Estou corrigindo.