larhud / timeline

Sistema para gerenciamento de timelines
2 stars 1 forks source link

Remoção das tags HTML do texto livre #28

Open josircg opened 1 year ago

josircg commented 1 year ago

Veja o caso abaixo:

https://timeline.ibict.br/admin/base/noticia/6634/change/

Repare o texto breve está em formato de HTML, inclusive com as acentuações erradas. Para corrigir isso, temos que utilizar a função unescape():

https://stackoverflow.com/questions/2087370/decode-html-entities-in-python-string

1) Pelo python console, faça o teste com o texto da notícia 6634 para ver como vai ficar o texto corrigido.

2) Construa um management que leia todas as noticias e contabilize quantas tem o texto breve errado. Se baseie nesse management para construir a sua rotina:

https://github.com/larhud/timeline/blob/dev/base/management/commands/validate.py

Por enquanto, não faça a correção do texto. Apenas contabilize quantas notícias precisarão ser corrigidas.