Chartes-TNAH / theses

Positions des thèses de l’École des chartes
0 stars 2 forks source link

séparation du titre en titre et sous-titre à partir du csv #15

Closed vasaura closed 6 years ago

vasaura commented 6 years ago

Le modèle teiHeader adopté (issue #6 ) nous amène à devoir séparer le champ "titre" du fichier csv en "titre" et "sous-titre". Les deux sont séparés de trois manières à différents endroits du fichier:

  1. par un point (.)
  2. par deux points (:)
  3. par virgule (,)

Je pense qu'un travail à la main de séparation est extrêmement prenant car on a 3000 lignes. J'ai essayé de voir ce qui peut être fait avec une petite moulinette python. Ca marche plutôt bien pour les cas avec (:), mais le (.) pose énormément de problème à cause des cas particuliers (du type v. ca. ms. B.N.F. etc). Je n'ai pas encore testé la virgule, mais je pense qu'elle posera aussi pas mal de problèmes Je pense toutefois que malgré ces difficultés, c'est toujours mieux de passer par la moulinette que de le faire à la main. En revanche, on aura un travail de relecture assez important.
Voyez-vous une meilleure méthode pour faire ce travail? Est-ce que dataiku aurait plus de possibilités? @architexte @MrGecko

AnZadykhina commented 6 years ago

Est-ce que c'est vraiment necessaire de séparer les titres en deux?

saroulle commented 6 years ago

abandon de cet option