madewild / CAMille

Centre for Archives on the Media and Information
MIT License
1 stars 1 forks source link

Add XLSX export #60

Closed madewild closed 2 years ago

madewild commented 2 years ago

With metadata to sort (on top of TXT export)

madewild commented 2 years ago

First version on https://dev.camille-ulb-kbr.be/?query=carbonade To fine-tune...

flecam commented 2 years ago

Cher Max, Nous avons le même problème, Brecht et moi. Le fichier excel produit n'est pas tout à fait conforme à nos souhaits: 1- il n'y a pas toujours 2000 signes 2- le texte se divise en colonnes quoique nous fassions 3- l'extraction a pour conséquence une augmentation très nette des caractères étranges dans le texte (souci d'ocr), alors que sur la plateforme les textes sont plus propres. On reste à ta disposition, Florence et Brecht

madewild commented 2 years ago

Je regarde ça demain...

madewild commented 2 years ago

Nouvelle version en ligne sur https://dev.camille-ulb-kbr.be/?query=carbonade avec fichier XLSX au lieu de CSV (plus facile).

  1. C'est normal de ne pas toujours avoir 2000 signes : parfois la page s'arrête et parfois il y a plusieurs occurrences du mot-clé sur la même page, auquel cas les différents matches sont concaténés avec [...]
  2. Le problème de colonnes devrait être réglé par le XLSX
  3. Pour les caractères spéciaux, je vois la même chose que sur le site. Si ce n'est pas le cas pouvez-vous me donner un exemple précis avec la référence de la page ?
flecam commented 2 years ago

Je regarde demain. Merci!

madewild commented 2 years ago

@flecam est-ce que les exports Excel sont OK à présent ?

madewild commented 2 years ago

@flecam petit rappel... :)

flecam commented 2 years ago

Coucou @madewild, En fait, on rencontre divers soucis ces derniers. Quand on fait des requêtes, nous ne tombons pas toujours sur les mêmes résultats. Par exemple, je prends “femmes journalisme”~6, je tombe sur 50 résultats, puis @bdeseure le fait, et il tombe sur des résultats différents, et je recommence et j'ai 500 000 résultats. C'est très étrange. Sais-tu pourquoi nous avons ce souci? florence.

madewild commented 2 years ago

Bizarre bizarre... il faudrait qu'on regarde ensemble. La seule explication que je vois c'est que le cluster Elasticsearch est surchargé et qu'il faudrait alors ajouter un 3e node, mais ça engendrerait un surcoût de ~40€/mois :-/

madewild commented 2 years ago

Il me semble que https://www.camille-ulb-kbr.be/?query=%E2%80%9Cfemmes+journalisme%E2%80%9D%7E6 donne bien 594.402 résultats. Je l'ai reproduit plusieurs fois, le souci apparaît-il encore chez vous ?

Ceci dit, c'est un problème différent. S'il est toujours présent je peux ouvrir une autre issue, mais est-ce qu'on peut clôturer l'histoire du XLSX ?

flecam commented 2 years ago

@madewild Oui, c'est un gros souci. Car dans notre recherche originelle, cela donnait 50 résultats très ciblés, qu'il était possible de traiter qualitativement. Je ne comprends pas comment à présent nous passons à 600 000 résultats.

madewild commented 2 years ago

Oh je viens de comprendre, c'est tout bête ! Il faut absolument utiliser les guillemets droits "comme ceci" et non les guillemets courbés/inclinés de Word “comme cela” !

https://www.camille-ulb-kbr.be/?query=%22femmes+journalisme%22%7E6 donne bien 50 résultats :)

madewild commented 2 years ago

Sans les guillemets droits, le moteur de recherche interprète cela comme une recherche approximative et non une recherche de proximité ;)

flecam commented 2 years ago

caramba!!!!!

madewild commented 2 years ago

Ah les copier-coller de Word... :P

madewild commented 2 years ago

J'en reviens donc à ma question : pour l'export XLSX tout est OK ? Je peux fermer cette issue ? :)

flecam commented 2 years ago

Quand je vais par là, non: https://www.camille-ulb-kbr.be/?query=%22femmes+journalisme%22%7E6

flecam commented 2 years ago

Désolée, je n'étais pas sur la bonne version: oui, cela fonctionne. Tout est dans les bonnes colonnes, bien rangé, bien séparé! Merci!

madewild commented 2 years ago

Quand je vais par là, non: https://www.camille-ulb-kbr.be/?query=%22femmes+journalisme%22%7E6

Oui ce n'est pas encore en prod... bientôt ;)