Closed luismvargasg closed 1 month ago
como nota, los datos con espacios y \t vienen de scienti y todo lo que tiene html de openalex.
aún hay un pequeño error en openalex
@omazapa Detecté por acá también algunos títulos que contienen caracteres unicode como en este artículo que tiene el código para la raíz cuadrada √ : https://api.dev.impactu.colav.co/app/work/6647fe0de505101e7630e508?section=info
Y estos otros que contienen expresiones LaTeX: https://dev.impactu.colav.co/search/works?max=10&page=1&sort=citations-&keywords=/sqrt{s}
Yo estuve revisando y para ambos casos se pueden manejar desde front instalando unas librerías livianas que convierten, pero podríamos revisar si desde datos o backend se pueda también hacer algo para no pasarle la carga al cliente.
@restrepo que deberíamos hacer con el látex?
le hago el procesamiento en ETL o lo dejamos para renderizarse en front? si es en ETL lo podemos poner como unicode
En varios de los artículos que revisé a través de los enlaces externos se ve que hacen la conversión para mostrárselos de manera adecuada al usuario Ej.: https://link.springer.com/article/10.1140/epjc/s10052-017-4730-z
pero ellos creo que lo hacen con una librería en front, revisando el código usan https://docs.mathjax.org/en/latest/index.html
Exacto, esa es la opción que encontré para manejarlo desde front, con esa librería, aunque sería preferible hacer la conversión de LaTeX a unicode. Y ya teniendo el unicode en front hago el decode con https://www.npmjs.com/package/he
@omazapa, @luismvargasg: LaTeX es diferente de Unicode, es preferible no renderizar el LaTeX que convertirlo a Unicode. La forma más recomendable sería activar MathJax: https://info.arxiv.org/help/mathjax.html, pero una libreria más liviana que renderice es también aceptable. Quitar el LaTex a nivel de ETL sería perder información
hola @restrepo de acuerdo, entonces es trabajo para el front
Ya está lista la implementación de MathJax en front para visualizar los títulos de los productos que contengan TeX.
Antes:
Ahora:
También se agregó la conversión de Unicode.
Antes:
Ahora:
Quedó muy bien!
los caracteres malos nuevos vienen de ranking_udea
@omazapa hay varios productos que contienen caracteres especiales y fueron detectados una vez se activó el sort por orden alfabético en la plataforma. Ej. 1: Están quedando con uno o varios espacios en blanco al inicio del nombre:![image](https://github.com/colav/impactu/assets/60363752/cfc07a2a-7edd-4b98-abb5-2938890c8a44)
Ej. 2: Muchos otros están quedando con unas comillas al inicio del nombre:![image](https://github.com/colav/impactu/assets/60363752/a30b697c-1e44-448a-898c-5d5f5b18743e)
Ej. 3: Algunos tienen las siguientes etiquetas:![image](https://github.com/colav/impactu/assets/60363752/b13ad962-e1b5-484d-b8eb-4a57ee8335bc)
Ej. 4: Algunos tienen etiquetas html:
ID de producto: 6629288a847d4d6aa6d6aff6 y 66292aec847d4d6aa6d6b08b
Estos son los que pude detectar haciendo una revisión rápida pero se requiere mirar a mayor profundidad.