Limpieza de caracteres especiales y valores anómalos en títulos de productos.

colav / impactu

Colav Impactu Issues and Documentation

BSD 3-Clause "New" or "Revised" License

0 stars 0 forks source link

Limpieza de caracteres especiales y valores anómalos en títulos de productos. #53

Closed luismvargasg closed 1 month ago

luismvargasg commented 2 months ago

@omazapa hay varios productos que contienen caracteres especiales y fueron detectados una vez se activó el sort por orden alfabético en la plataforma. Ej. 1: Están quedando con uno o varios espacios en blanco al inicio del nombre:

Ej. 2: Muchos otros están quedando con unas comillas al inicio del nombre:

Ej. 3: Algunos tienen las siguientes etiquetas:

Ej. 4: Algunos tienen etiquetas html: ID de producto: 6629288a847d4d6aa6d6aff6 y 66292aec847d4d6aa6d6b08b

Estos son los que pude detectar haciendo una revisión rápida pero se requiere mirar a mayor profundidad.

omazapa commented 2 months ago

https://apis.impactu.colav.co//app/affiliation/institution/660b03f5fe99b8857e8658bd/research/products?max=10&page=1&sort=citations

omazapa commented 2 months ago

como nota, los datos con espacios y \t vienen de scienti y todo lo que tiene html de openalex.

omazapa commented 1 month ago

aún hay un pequeño error en openalex

luismvargasg commented 1 month ago

@omazapa Detecté por acá también algunos títulos que contienen caracteres unicode como en este artículo que tiene el código para la raíz cuadrada √ : https://api.dev.impactu.colav.co/app/work/6647fe0de505101e7630e508?section=info

Y estos otros que contienen expresiones LaTeX: https://dev.impactu.colav.co/search/works?max=10&page=1&sort=citations-&keywords=/sqrt{s}

Yo estuve revisando y para ambos casos se pueden manejar desde front instalando unas librerías livianas que convierten, pero podríamos revisar si desde datos o backend se pueda también hacer algo para no pasarle la carga al cliente.

omazapa commented 1 month ago

@restrepo que deberíamos hacer con el látex?

le hago el procesamiento en ETL o lo dejamos para renderizarse en front? si es en ETL lo podemos poner como unicode

luismvargasg commented 1 month ago

En varios de los artículos que revisé a través de los enlaces externos se ve que hacen la conversión para mostrárselos de manera adecuada al usuario Ej.: https://link.springer.com/article/10.1140/epjc/s10052-017-4730-z

omazapa commented 1 month ago

pero ellos creo que lo hacen con una librería en front, revisando el código usan https://docs.mathjax.org/en/latest/index.html

luismvargasg commented 1 month ago

Exacto, esa es la opción que encontré para manejarlo desde front, con esa librería, aunque sería preferible hacer la conversión de LaTeX a unicode. Y ya teniendo el unicode en front hago el decode con https://www.npmjs.com/package/he

restrepo commented 1 month ago

@omazapa, @luismvargasg: LaTeX es diferente de Unicode, es preferible no renderizar el LaTeX que convertirlo a Unicode. La forma más recomendable sería activar MathJax: https://info.arxiv.org/help/mathjax.html, pero una libreria más liviana que renderice es también aceptable. Quitar el LaTex a nivel de ETL sería perder información

omazapa commented 1 month ago

hola @restrepo de acuerdo, entonces es trabajo para el front

luismvargasg commented 1 month ago

Ya está lista la implementación de MathJax en front para visualizar los títulos de los productos que contengan TeX. Antes: Ahora:

También se agregó la conversión de Unicode. Antes: Ahora:

omazapa commented 1 month ago

Quedó muy bien!

omazapa commented 1 month ago

los caracteres malos nuevos vienen de ranking_udea