lovasoa / ophirofox

Une extension pour navigateur qui permet de lire les articles de presse en ligne sur le compte de bibliothèques ayant souscrit à europresse
https://ophirofox.ophir.dev
Mozilla Public License 2.0
63 stars 164 forks source link

La présence d'une apostrophe dans le titre donne un message d'erreur #240

Closed Jireille closed 2 months ago

Jireille commented 2 months ago

Exemple https://www.liberation.fr/sports/jeux-olympiques/jeux-paralympiques-2024-alexandre-leaute-le-glouton-du-paracyclisme-decroche-sa-premiere-medaille-dor-20240830_HTDLL7SCGVBMDDQVVBSNA4HCIA/

Dans le titre de cet article, "Jeux paralympiques 2024 : Alexandre Léauté, le glouton du paracyclisme, décroche sa première médaille d’or" une apostrophe est située à la position 108. La recherche donne un message d'erreur " Requête invalide. L'opérateur trouvé à la position [108] n'est pas valide à cet endroit. " La recherche directe dans Europresse trouve l'article.

Write commented 2 months ago

Comme nous retirons les apostrophes de la recherche, Europresse évalue-le "or" à la fin de la string au lieu de "d'or". D'où le fait qu'un copié coller du titre fonctionne. J'imagine que rajouter 'or' aux stopwords pourrait être une solution const stopwords = new Set(['d', 'l', 'et', 'sans', 'or']);

Jireille commented 2 months ago

Merci ! Je n'avais pas compris correctement et cru que l'apostrophe elle-même était le problème. Mais si "or" est ajouté aux stopwords et que qu'on cherche "medaille or", ou simplement "or", que va-t-il se passer ?

Write commented 2 months ago

Merci ! Je n'avais pas compris correctement et cru que l'apostrophe elle-même était le problème. Mais si "or" est ajouté aux stopwords et que qu'on cherche "medaille or", ou simplement "or", que va-t-il se passer ?

Yep cela peut poser problème, c'est pour ça que dans mon PR, j'ai dit que c'est sûrement à review. Il faudrait ajouter une vérification plus complexe pour supprimer le OR seulement s'il est en fin de string.

Jireille commented 2 months ago

compris, merci beaucoup !

Write commented 2 months ago

En fait, même un OR au milieu de la phrase est évaluée par Europresse car il est remplacé par un | après recherche, donc comme nous retirons les apostrophes dans tous les cas, je pense qu'il n'est pas plus mal de retirer tous les "or". Ceci ne s'applique pas aux recherches manuelles dans tous les cas.

Jireille commented 2 months ago

Ah oui, je viens de repérer le | dans ce titre : https://www.liberation.fr/sports/jeux-olympiques/taekwondo-au-jo-de-paris-2024-althea-laurin-une-medaille-dor-dur-dorteille-20240810_KGUIG3OFGRFCJIT7IT3CLNN5DU/

Merci pour tous ces échanges, j'aime comprendre.