Inist-CNRS / web-services

Web services at Inist-CNRS
https://services.istex.fr
5 stars 0 forks source link

Le service pdf-text renvoit une réponse vide #110

Open touv opened 1 month ago

touv commented 1 month ago

Via lodex, le web service pdf-text appelé avec des urls fonctionnent sur plusieurs urls mais pour certaines Lodex affiche l'erreur :

image

En cherchant un peu, il se trouve que la réponse du web service est vide image

coté web service il y a aussi une erreur laconique...

<Error: ./v1/pdf2txt.py exit with code 1>

De manière isolée le même appel via swagger sur la même url ne pose pas de problème...

touv commented 1 month ago

mea culpa j'ai trouvé une erreur plus précise coté serveur image

touv commented 1 month ago

sauf que dans ce cas lodex affiche bien l'erreur (donc la réponse n'est pas vide)

image

Conclusion, il y a plusieurs cas...

cuxac commented 1 month ago

Tu peux me donner une url de pdf qui provoque ce comportement ?

touv commented 1 month ago

je crois que c'est pas toujours le même pdf, ou le même lot de fichiers

cuxac commented 1 month ago

aïe

touv commented 1 month ago

il ya plusieurs cas:

cette ligne https://github.com/Inist-CNRS/web-services/blob/main/services/pdf-text/v1/pdf2txt.py#L35

ou cette ligne https://github.com/Inist-CNRS/web-services/blob/main/services/pdf-text/v1/pdf2txt.py#L218

touv commented 1 month ago

sans être spécialiste python, je dirais que la première provoque l'arret brutal du script et donc une réponse vide

pour la second l'erreur est bien gérée et elle apparaît dans lodex

mais tout cela n'explique pas la cause des erreurs