Chartes-TNAH / tite-live

0 stars 3 forks source link

Le corps du texte, suite et presque fin #25

Closed aimelle closed 6 years ago

aimelle commented 6 years ago

Dans le même esprit que l'issue sur le TEI Header, voilà l'issue sur à peu près tout ce qu'il nous reste à régler concernant le texte lui-même (à l'exception des quelques entités qui correspondent à des caractères spéciaux, ce qui sera notre dernier problème.) Comme précédemment, on n'indente surtout pas et on est en mode regex / le point = tout la plupart du temps.

D'abord, on change l'encodage des corrections comme déterminé dans l'issue #17 : <corr sic="(.*?)">(.*?)((\n| |)*?)</corr> ==> <choice><sic>$1</sic><corr>$2</corr></choice>

Ensuite,

Voilà, donnez-moi votre avis et surtout prévenez-moi s'il y a quelque chose qui ne marche pas / casse tout chez vous.

aimelle commented 6 years ago

Ha et, normalement, après avoir fait le marquage des book / chapter / section + ça, on a se retrouve avec un document qu'on PEUT indenter, tout propre et beau, joie sur la terre (les seuls problèmes qui restent normalement seront les entités, mais normalement ce sera surtout des &mdash; qui traînent + des choses dans le TEI Header.)

lafrering commented 6 years ago
aimelle commented 6 years ago

D'accord pour le n="1", c'est vrai que c'est plus clean. Perso les <hi> vides je pense qu'on les supprime ? Si ils servent à rien ben, ils servent à rien. (Et loin de moi l'idée de supprimer les <pb/> haha.)

AlyxTaj commented 6 years ago

J'ai fait toutes les regex nécessaires sur les books 31-38. Je n'avais que quelques <hi> qui chevauchaient des <p> donc je les ai reprises à la main, aucune vide. En effet il vaut mieux laisser les <pb> en l'état. Je préfère attendre encore avant d'indenter parce que ça m'a plombé toute mon après-midi... Merci pour tout !