Closed billmetangmo closed 1 year ago
Tâche absolument nécessaire car datasette-lite ( refers to https://github.com/mongulu-cm/tchoung-te/issues/9#issuecomment-1175258469 ) ne peut pas charger le CSV à cause des "" qui traînent dans le texte. Il en est de même pour tablerow.
Je ne comprends pas trop les deux liens envoyés
Oui je l'ai mis pour moi-même hahaha. Le lien montre juste la liste des élements avec " dans le titre (lien 1) et dans l'objet ( lien 2) pour un nouveau fichier rna que j'ai généré ( mais pas besoin de bosser sur celui-là). C'est juste pour garder une trace.
Sinon il faudra mettre à jour ta branche avec main ( via un rebase) quand t'auras fini car j'ai poussé une mise à jour sur main avec:
Du coup une fois que t'auras terminé le clean dans ton fichier process_data , tu pourras juste rajouter l'enlèvement des espaces en trop et les guillemets dans la fonction normalize
https://docs.python.org/3/library/textwrap.html#textwrap.dedent https://github.com/wolfgarbe/SymSpell https://github.com/jfilter/clean-text https://ftfy.readthedocs.io/en/v6.0/ https://github.com/maxbachmann/RapidFuzz