juba / rainette

R implementation of the Reinert text clustering method
https://juba.github.io/rainette/
53 stars 7 forks source link

Problème de lecture de corpus de texte - rainette #10

Closed CreaPolitics closed 3 years ago

CreaPolitics commented 3 years ago

Bonjour, Merci énormément pour ce package, qui promet d'être très intéressant à l'utilisation. N'étant pas un professionnel de "R", je me trompe peut être dans la façon d'effectuer mes analyses, et je m'excuse d'avance si ma question peut sembler idiote.

J'essaie de m'entrainer à utiliser votre package, et j'arrive à installer l'ensemble (il me semble tout à fait correctement). Au moment de lancer le package, pas de problèmes pour répéter les opérations que vous avez mis en avant, mais arrivé à la lecture du corpus, ou les apostrophes, accents et cédilles prennent des formes étranges (voir capture d'écran).

Capture3

J'ai passé le Spelling en Français

Capture

Et le code d'ouverture des fichiers de sauvegardes en UTF8

Capture2

Malheureusement, ce bug semble compromettre toutes les autres analyses.

Capture4

Je suppose que j'ai du oublier quelque chose d'assez basique... Vraiment désolé pour le dérangement en tout cas, et merci d'avance pour votre aide.

Bien cordialement,

juba commented 3 years ago

Ah, c'est l'éternel souci d'encodage quand on travaille sous Windows malheureusement. Est-ce que vous pouvez essayer de rajouter l'option encoding suivante à import_corpus_iramuteq, voir si ça résout le problème ?

corpus <- import_corpus_iramuteq(fichier, encoding="UTF-8")
CreaPolitics commented 3 years ago

Absolument fantastique, tout marche !