Le modèle teiHeader adopté (issue #6 ) nous amène à devoir séparer le champ "titre" du fichier csv en "titre" et "sous-titre".
Les deux sont séparés de trois manières à différents endroits du fichier:
par un point (.)
par deux points (:)
par virgule (,)
Je pense qu'un travail à la main de séparation est extrêmement prenant car on a 3000 lignes.
J'ai essayé de voir ce qui peut être fait avec une petite moulinette python. Ca marche plutôt bien pour les cas avec (:), mais le (.) pose énormément de problème à cause des cas particuliers (du type v. ca. ms. B.N.F. etc). Je n'ai pas encore testé la virgule, mais je pense qu'elle posera aussi pas mal de problèmes
Je pense toutefois que malgré ces difficultés, c'est toujours mieux de passer par la moulinette que de le faire à la main. En revanche, on aura un travail de relecture assez important.
Voyez-vous une meilleure méthode pour faire ce travail? Est-ce que dataiku aurait plus de possibilités? @architexte @MrGecko
Le modèle teiHeader adopté (issue #6 ) nous amène à devoir séparer le champ "titre" du fichier csv en "titre" et "sous-titre". Les deux sont séparés de trois manières à différents endroits du fichier:
Je pense qu'un travail à la main de séparation est extrêmement prenant car on a 3000 lignes. J'ai essayé de voir ce qui peut être fait avec une petite moulinette python. Ca marche plutôt bien pour les cas avec (:), mais le (.) pose énormément de problème à cause des cas particuliers (du type v. ca. ms. B.N.F. etc). Je n'ai pas encore testé la virgule, mais je pense qu'elle posera aussi pas mal de problèmes Je pense toutefois que malgré ces difficultés, c'est toujours mieux de passer par la moulinette que de le faire à la main. En revanche, on aura un travail de relecture assez important.
Voyez-vous une meilleure méthode pour faire ce travail? Est-ce que dataiku aurait plus de possibilités? @architexte @MrGecko