PyAr / CDPedia

CDPedia is a project to make the Wikipedia accesable offline
34 stars 15 forks source link

Description paragraph is taken from first p tag inside mw_parser_output div #338

Closed marian-vignau closed 3 years ago

marian-vignau commented 3 years ago

314 …output's div

fzuccolo commented 3 years ago

Un par de observaciones:

1. Algunas descripciones no se extraen

Por ej. de Argentina o Rosario:

En Argentina hay un <p class="algo"> antes del párrafo <p>...</p> que nos interesa

Agregando class_=None acá capturamos estos casos:

https://github.com/PyAr/CDPedia/blob/2f3aa6e8cd97c320b787a69f2e4e19af00c4a176/src/preprocessing/preprocessors.py#L103

Screenshot_2020-12-03 Search CDPedia, la Wikipedia offline(1)

2. Tokens en resultados

Me parece que los tokens abajo del título en los resultados son redundantes, ya que esas palabras ya están en el título:

Podríamos sacarlos borrando esta línea, no sé que te parece:

https://github.com/PyAr/CDPedia/blob/2f3aa6e8cd97c320b787a69f2e4e19af00c4a176/src/web/templates/search.html#L26