mongulu-cm / tchoung-te

Map of Cameroonian associations in France
https://tchoung-te.mongulu.cm/
GNU General Public License v3.0
1 stars 0 forks source link

Normalisez le titre et l'objet #15

Closed billmetangmo closed 1 year ago

billmetangmo commented 2 years ago

https://docs.python.org/3/library/textwrap.html#textwrap.dedent https://github.com/wolfgarbe/SymSpell https://github.com/jfilter/clean-text https://ftfy.readthedocs.io/en/v6.0/ https://github.com/maxbachmann/RapidFuzz

billmetangmo commented 2 years ago

Tâche absolument nécessaire car datasette-lite ( refers to https://github.com/mongulu-cm/tchoung-te/issues/9#issuecomment-1175258469 ) ne peut pas charger le CSV à cause des "" qui traînent dans le texte. Il en est de même pour tablerow.

billmetangmo commented 1 year ago
billmetangmo commented 1 year ago
KameniAlexNea commented 1 year ago

Je ne comprends pas trop les deux liens envoyés

billmetangmo commented 1 year ago

Oui je l'ai mis pour moi-même hahaha. Le lien montre juste la liste des élements avec " dans le titre (lien 1) et dans l'objet ( lien 2) pour un nouveau fichier rna que j'ai généré ( mais pas besoin de bosser sur celui-là). C'est juste pour garder une trace.

billmetangmo commented 1 year ago

Sinon il faudra mettre à jour ta branche avec main ( via un rebase) quand t'auras fini car j'ai poussé une mise à jour sur main avec:

Du coup une fois que t'auras terminé le clean dans ton fichier process_data , tu pourras juste rajouter l'enlèvement des espaces en trop et les guillemets dans la fonction normalize